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INTRODUCTION 


出 版 说 明 


随 着 国家 信息 化 步伐 的 加 快 和 高 等 教育 规模 的 扩大 ， 社 会 对 计算 机 专 
业 人 才 的 需求 不 仅 体现 在 数量 的 增加 上 ， 而 且 体 现在 质量 要 求 的 提高 上 ， 
培养 具有 研究 和 实践 能 力 的 高 层次 的 计算 机 专业 人 才 已 成 为 许多 重点 大 学 
计算 机 专业 教育 的 主要 目标 。 目 前 ， 我 国共 有 16 个 国家 重点 学 科 、20 个 博 
士 点 一 级 学 科 、28 个 博士 点 二 级 学 科 集中 在 教育 部 部 属 重点 大 学 ， 这 些 高 
校 在 计算 机 教学 和 科研 方面 具有 一 定 优势 ， 并 且 大 多 以 国际 著名 大 学 计算 
机 教育 为 参照 系 ， 具 有 系统 完善 的 教学 课程 体系 、 教 学 实验 体系 、 教 学 质 
量 保证 体系 和 人 才 培 养 评 估 体 系 等 综合 体系 ， 形 成 了 培养 一 流 人 才 的 教学 
和 科研 环境 。 

重点 大 学 计算 机 学 科 的 教学 与 科研 氛围 是 培养 一 流 计 算 机 人 才 的 基础 ， 
其 中 专业 教材 的 使 用 和 建设 则 是 这 种 氛围 的 重要 组 成 部 分 ， 一 批 具 有 学 科 
方向 特色 优势 的 计算 机 专业 教材 作为 各 重点 大 学 的 重点 建设 项 目 成 果 得 到 
肯定 。 为 了 展示 和 发 扬 各 重点 大 学 在 计算 机 专业 教育 上 的 优势 ， 特 别 是 专 
业 教 材 建 设 上 的 优势 ， 同 时 配合 各 重点 大 学 的 计算 机 学 科 建 设 和 专业 课程 
教学 需要 ， 在 教育 部 相关 教学 指导 委员 会 专家 的 建议 和 各 重点 大 学 的 大 力 
支持 下 ， 清 华 大 学 出 版 社 规划 并 出 版 本 系列 教材 。 本 系列 教材 的 建设 由 在 
“汇聚 学 科 精 英 、 引 领 学 科 建设 、 培 育 专 业 英 才 "， 同 时 以 教材 示范 各 重点 
大 学 的 优秀 教学 理念 、 教 学 方法 、 教 学 手段 和 教学 内 容 等 。 

本 系列 教材 在 规划 过 程 中 体现 了 如 下 一 些 基 本 组 织 原 则 和 特点 。 

1 面向 学 科 发 展 的 前 沿 ， 适 应 当前 社会 对 计算 机 专业 高 级 人 才 的 培养 
需求 。 教 材 内 容 以 基本 理论 为 基础 ， 反 映 基本 理论 和 原理 的 综合 应 用 ， 重 
视 实践 和 应 用 环节 。 

2 反映 教学 需要 ， 促 进 教学 发 展 。 教 材 要 能 适应 多 样 化 的 教学 需要 ， 
正确 把 握 教学 内 容 和 课程 体系 的 改革 方向 。 在 选择 教材 内 容 和 编写 体系 时 
注意 体现 素质 教育 、 创 新 能 力 与 实践 能 力 的 培养 ， 为 学 生 知识 、 能 力 、 素 
质 协调 发 展 创造 条 件 。 

3 实施 精品 战略 ， 突 出 重点 ， 保 证 质量 。 规 划 教材 建设 的 重点 依然 是 
专业 基础 课 和 专业 主干 课 ; 特别 注意 选择 并 安排 了 一 部 分 原来 基础 比较 好 的 
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优秀 教材 或 讲义 修订 再 版 ， 逐 步 形成 精品 教材 ; 提倡 并 鼓励 编写 体现 重点 大 学 计算 机 专业 


教学 内 容 和 课程 体系 改革 成 果 的 教材 。 


4 主张 一 纲 多 本 ， 合 理 配套 。 专 业 基础 课 和 专业 主干 课 教材 要 配套 ， 同 一 门 课程 可 
以 有 多 本 具有 不 同 内容 特 点 的 教材 。 处 理 好 教材 统一 性 与 多 样 化 的 关系 ; 基本 教材 与 辅助 
教材 以 及 教学 参考 书 的 关系 ; 文字 教材 与 软件 教材 的 关系 ， 实 现 教材 系列 资源 配套 。 

5 依靠 专家 ， 择 优 落 实 。 在 制订 教材 规划 时 要 依靠 各 课程 专家 在 调查 研究 本 课程 教 


材 建设 现状 的 基础 上 提出 规划 选 题 。 在 落实 主编 人 选 时 ， 


要 引入 竞争 机 制 ， 通 过 申报 、 评 


审 确定 主编 。 书 稿 完 成 后 要 认真 实行 审 稿 程 序 ， 确 保 出 书 质量 。 
繁荣 教材 出 版 事业 ， 提 高 教材 质量 的 关键 是 教师 。 建 立 一 支 高 水 平 的 以 老 带 新 的 教材 
编写 队伍 才能 保证 教材 的 编写 质量 ， 希 望 有 志 于 教材 建设 的 教师 能 够 加 入 到 我 们 的 编写 队 


伍 中 来 。 
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前 言 


《数据 挖掘 原理 与 算法 》 一 书 出 版 以 来 ,被 许多 高 校 作 为 本 科 生 或 者 研究 
生 的 教材 使 用 。 几 年 来 许多 教师 给 出 了 很 好 的 建议 ,因此 我 们 在 2007 年 针对 
相关 问题 进行 了 修订 并 出 版 了 其 第 二 版 。 该 教材 是 一 本 全 面 介 绍 数据 挖掘 
和 知识 发 现 技术 的 专业 书籍 ,具有 内 容 系 统 . 知 识 含量 高 等 特点 。 可 能 也 正 
是 因为 这 些 特点 ,作为 教材 给 教师 带 来 了 一 些 授 课 难 点 。 特 别 是 ,由 于 教材 
使 用 的 对 象 不 同 ,对 教材 内 容 进 行 选择 是 必需 的 。 为 了 让 教师 更 好 地 使 用 
《数据 挖掘 原理 与 算法 ) 一 书 , 减 轻 教师 的 负担 ,我 们 编写 了 本 教师 用 书 。 

《数据 挖掘 原理 与 算法 (第 二 版 ) 教 师 用 书 》 主 要 从 四 个 部 分 为 教师 提供 
了 参考 :一 、 对 教材 每 章 的 部 分 习题 给 出 了 参考 答案 ;二 、 介 绍 各 章 授 课 内 容 
重点 与 课时 分 配 ; 三 .针对 不 同 的 授课 学 生 对 象 给 出 了 课时 安排 的 建议 ; 
四 、 提 供 了 两 套 样 本 试卷 及 其 参考 答案 。 

目的 是 为 了 帮助 教师 提高 讲课 的 效率 ,但 不 能 代替 教师 的 教学 研究 工 
作 。 特 别 考虑 到 教师 用 书 也 可 能 被 学 生 使 用 , 故 对 教材 后 面 的 习题 并 没有 给 
出 全 部 解答 。 

整体 上 说 ,数据 挖掘 技术 包含 概念 与 过 程 、 原 理 与 方法 两 个 主要 部 分 。 
对 于 有 关 概 念 与 过 程 , 主 要 集中 在 《数据 挖掘 原理 与 算法 (第 二 版 ) 第 LBA 
第 2 章 , 不 论 学 生 对 象 如 何 ,教师 都 应 该 给 予 重视 ,力求 全 面 而 直观 地 进行 介 

。 数 据 挖 所 中 的 原理 与 方法 ,分 布 在 (数据 挖掘 原理 与 算法 (第 二 版 ) 的 第 

+ 8 章 , 涵 盖 关联 规则 、 分 类 、 聚 类 序列、 空间 以 及 Web 挖掘 等 分 支 。 我 们 认 
为 ,关联 规则 ,分 类 、 聚 类 是 经 典 内 容 , 不 论 学 生 对 象 如 何 ,教师 都 应 该 选择 一 
些 典型 的 理论 和 算法 进行 剖析 。 2. e 3~ 5 章 
的 内 容 进 行 合理 选择 。 例 如 ,如 果 准 备 给 本 科 生 开 一 个 只 有 了 2 课时 的 课程 ， 
那么 最 起 码 的 要 求 是 在 对 于 关联 规则 、 分 类 、 人 
楚 的 前 提 下 ,能 把 Apriori, ID3 #0 kmeans 算法 剖析 清楚 即 可 。 第 6~ 8 章 的 内 容 
相对 比较 松散 ,对 于 研究 生来 说 ,我 们 认为 需要 进行 选择 性 地 介绍 或 讨论 。 
这 是 因为 这 些 内 容 属 于 数据 挖掘 的 较 前 沿 的 课题 ,而 且 有 着 很 广泛 的 研究 和 
应 用 价值 ,因此 对 于 研究 生 将 来 的 研究 工作 可 能 会 有 很 大 的 帮助 。 

《数据 挖掘 原理 与 算法 》( 第 二 版 ) 共 分 8 章 , 各 章 相 对 独立 ,而 且 每 章 的 
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内 容 都 是 从 前 往 后 难度 逐渐 增 大 的 。 因 此 ,教师 完全 可 以 发 挥 自己 的 想象 力 和 知识 上 的 优 
势 进行 内 容 选 择 。 此 外 ,如 果 读 者 是 从 事 计 算 机 相关 研究 和 开发 的 人 员 ,本 教师 用 书 可 能 也 
能 帮助 读者 节约 宝贵 时 间 ,提高 (数据 挖掘 原理 与 算法 兴 第 二 版 ) 一 书 的 利用 效率 。 总 之 , 作 
者 希望 通过 本 教师 用 书 ,提供 一 个 很 好 地 利用 《数据 挖掘 原理 与 算法 兴 第 二 版 ) 的 辅助 材料 ， 
促进 数据 挖掘 技术 的 普及 与 提高 。 


作 者 
2008 年 12 月 于 北京 
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各 章 习 题 及 部 分 参考 答案 ”第 一 部 分 


3 
第 一 部 分 ES 


第 1 章 By 论 


1. 给 出 下 列 英文 缩写 或 短语 的 中 文 名 称 和 简单 的 含义 

(1) Data Mining 

(2) Artificial Intelligence 

(3) Machine Learning 

(4) Knowledge Engineering 

(5) Information Retrieval 

(6) Data Visualization 

参考 答案 : C) 数据 挖掘 。 简 单 地 说 就 是 从 大 型 数据 中 挖掘 所 需要 的 知识 。 

C2) 人 工 智能 。 简 单 地 说 就 是 研究 如 何 应 用 机 器 来 模拟 人 类 某 些 智能 行为 的 基本 理 
论 .方法 和 技术 的 一 门 科学 。 

G) 机 器 学 习 。 简 单 地 说 就 是 研究 如 何 使 用 机 器 来 模拟 人 类 学 习 活动 的 一 门 学 科 。 

(4) 知识 工程 。 简 单 地 说 就 是 研究 知识 信息 处 理 并 探讨 开发 知识 系统 的 技术 。 

(5) 信息 检索 。 简 单 地 说 就 是 研究 合适 的 信息 组 织 并 根据 用 户 需求 快速 而 准确 地 查找 
信息 的 技术 。 通 常 指 的 是 计算 机 信息 检索 , 它 以 计算 机 技术 为 手段 ,完成 电子 信息 的 汇集 、 
存储 和 查找 等 的 相关 技术 。 

(6) 数据 可 视 化 。 简 单 地 说 就 是 运用 计算 机 图 形 学 和 图 像 处 理 等 技术 ,将 数据 换 为 图 
形 或 图 像 在 屏幕 上 显示 出 来 。 它 是 进行 人 机 交互 处 理 、 数 据 解 释 以 及 提高 系统 可 用 性 的 重 
要 手段 。 

2. 给 出 下 列 英文 缩写 或 短语 的 中 文 名 称 和 简单 的 含义 。 

(1) OLTP(On-line Transaction Processing) 

(2) OLAP(On-line Analytic Processing) 

(3) Decision Support 

(4) KDD(Knowledge Discovery in Databases) 

(5) Transaction Database 

(6) Distributed Database 

参考 答案 : 略 。 

3. 为 什么 说 数据 挖掘 是 未 来 信息 处 理 的 骨干 技术 之 一 ? 

参考 答案 : 数据 挖掘 之 所 以 被 称 为 未 来 信息 处 理 的 骨干 技术 之 一 ,主要 在 于 它 以 一 种 
全 新 的 概念 改变 着 人 类 利用 数据 的 方式 。 数 据 挖掘 和 知识 发 现 使 数据 处 理 技术 进入 了 一 个 
更 高 级 的 阶段 。 它 不 仅 能 对 过 去 的 数据 进行 简单 地 查询 ,并 且 能 够 找 出 过 去 数据 之 间 的 潜 
在 联系 ,进行 更 高 层次 的 分 析 , 以 便 更 好 地 做 出 理想 的 决策 、 预 测 未 来 的 发 展 趋势 等 。 


4. 从 商业 需求 角度 分 析 数 据 挖掘 技术 产生 的 合理 性 。 

参考 答案 : it. 

5. 支撑 数据 挖掘 技术 的 主要 研究 基础 学 科 有 哪些 ? 说 明 数据 挖掘 产生 的 技术 背景 。 
参考 答案 : 任何 技术 的 产生 总 是 有 它 的 技术 背景 的 。 数 据 挖掘 技术 的 提出 和 普遍 接受 
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是 由 于 计算 机 及 其 相关 技术 的 发 展 为 其 提供 了 研究 和 应 用 的 技术 基础 。 普 遍 认为 ,对 数据 
挖掘 产 生 决 定性 作用 的 三 个 主要 技术 是 : 数据 库 技术 、 统 计 学 和 包括 机 器 学 习 在 内 的 人 工 
智能 技术 。 

在 关系 型 数据 库 的 研究 和 产品 提升 过 程 中 ,人 们 一 直 在 探索 组 织 大 型 数据 和 快速 访问 
的 相关 技术 。 高 性 能 关系 数据 库 引 擎 以 及 相关 的 分 布 式 查询 、 并 发 控制 等 技术 的 使 用 ,已 经 
提升 了 数据 库 的 应 用 能 力 。 在 数据 的 快速 访问 、 集 成 与 抽取 等 问题 的 解决 上 积累 了 经 验 。 
数据 仓库 作为 一 种 新 型 的 数据 存储 和 处 理 手段 ,被 数据 库 厂商 普遍 接受 并 且 相 关 辅 助 建 模 
和 管理 工具 快速 推 向 市 场 , 成 为 多 数据 源 集 成 的 一 种 有 效 的 技术 支撑 环境 。 因此, 人们 已 经 
具备 利用 多 种 方式 存储 海量 数据 的 能 力 。 这 些 丰 富 多 彩 的 数据 存储 、 管 理 以 及 访问 技术 的 
发 展 ,为 数据 挖掘 技术 的 研究 和 应 用 提供 了 丰富 的 土壤 。 

计算 机 芯片 技术 的 发 展 ,使 计算 机 的 处 理 和 存储 能 力 日 益 提 高 。 随 之 而 来 的 是 硬盘 、 
CPU 等 关键 部 件 的 价格 大 幅度 下 降 ,使 得 人 们 收集 ,存储 和 处 理 数 据 的 能 力 和 和 欲望 不 断 提 
高 。 经 过 几 十 年 的 发 展 ,计算 机 的 体系 结构 ,特别 是 并 行 处 理 技术 已 经 逐渐 成 熟 和 普遍 应 
用 ,并 成 为 支持 大 型 数据 处 理应 用 的 基础 。 计 算 机 性 能 的 提高 和 先进 的 体系 结构 的 发 展 使 
数据 挖掘 技术 的 研究 和 应 用 成 为 可 能 。 

历经 了 十 几 年 的 发 展 ,包括 基于 统计 学 、 人 工 智 能 等 在 内 的 理论 与 技术 性 成 果 已 经 被 成 功 
地 应 用 到 商业 处 理 和 分 析 中 。 这 些 应 用 从 某 种 程度 上 为 数据 挖掘 技术 的 提出 和 发 展 起 到 了 极 
大 地 推动 作用 。 数 据 挖掘 系统 的 核心 模块 技术 和 算法 都 离 不 开 这 些 理论 和 技术 的 支持 。 从 某 
种 意义 上 讲 , 这 些 理论 本 身 的 发 展 和 应 用 为 数据 挖掘 提供 了 有 价值 的 理论 和 应 用 积累 。 

6. 数据 挖掘 技术 是 一 个 交叉 研究 分 支 , 简 述 影响 它 产 生 和 发 展 的 主要 研究 学 科 或 分 支 
及 其 关系 。 

参考 答案 : 略 。 


7. 数据 (Data) 信息 (Information) 和 知识 (Knowledge) 是 人 们 认识 和 利用 数据 的 三 个 
不 同 阶段 ,数据 挖掘 技术 是 如 何 把 它们 有 机 的 结合 在 一 起 的 ? 

参考 答案 : 从 数据 .信息 和 知识 三 个 层面 上 看 ,数据 是 最 原始 的 未 经 组 织 和 处 理 的 信息 
源 。 信 息 或 称 有 效 信息 是 指 对 人 们 在 某 些 方面 有 价值 的 东西 。 知 识 是 一 种 现实 世界 信息 的 
抽象 和 浓缩 ,是 一 种 概念 规则、 模式 和 规律 等 。 数 据 挖掘 技术 通过 对 原始 数据 进行 微观 .中 
观 乃 至 宏观 的 统计 分析 、 综 合 和 推理 ,发 现 数 据 间 的 关联 性 、 未 来 趋势 以 及 一 般 性 的 概括 知 
识 等 ,转变 成 可 以 用 来 指导 人 们 某 些 高 级 商务 活动 的 有 用 信息 。 


8. 从 数据 挖掘 研究 角度 看 ,如 何 理解 数据 .信息 和 知识 的 不 同和 联系 。 
参考 答案 : 略 。 


9. 简 述 数据 挖掘 技术 将 来 的 发 展 趋势 。 

参考 答案 : 对 于 数据 挖掘 技术 的 发 展 趋势 ,应 该 分 两 方面 辩证 的 理解 。 

Q) 数据 挖掘 技术 已 经 存在 相当 大 市 场 .将 成 为 对 工业 产生 重要 影响 的 关键 技术 之 一 。 
同时 ,并 行 计算 机 体系 结构 研究 和 KDD 也 被 列 入 今后 5 年 内 公司 应 该 投资 的 10 个 新 技术 
领域 之 一 。 这 些 资 料 都 表明 ,数据 挖掘 技术 在 将 来 有 很 大 的 发 展 潜力 及 空间 。 

(2) 数据 挖掘 技术 作为 一 门 新 技术 , 仍 有 许多 问题 需要 研究 .解决 和 探索 。 分 析 目 前 的 
研究 和 应 用 现状 ,对 于 数据 挖掘 技术 将 来 的 工作 重点 有 : 
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D 数据 挖掘 技术 与 特定 商业 人 逻辑 的 平滑 集成 问题 ; 
© 数据 挖掘 技术 与 特定 数据 存储 类 型 的 适应 问题 ; 
© 大 型 数据 的 选择 与 规格 化 问题 ; 

© 数据 挖掘 系统 的 构架 与 交互 式 挖掘 技术 ; 

© 数据 挖掘 语言 与 系统 的 可 视 化 问题 ; 

数据 挖掘 理论 与 算法 研究 。 


10. 按 你 对 数据 挖掘 技术 的 了 解 , 你 认为 它 的 研究 将 面临 的 主要 挑战 和 对 策 是 什么 ? 
参考 答案 : 略 。 


11. 你 认为 应 该 如 何 来 理解 KDD 与 Data Mining 的 关系 ? 说 明 你 的 理由 。 

参考 答案 : 关于 KDD 与 Data Mining 的 关系 有 以 下 几 种 说 法 。 

CL) KDD 看 成 数据 挖掘 的 一 个 特例 。 这 是 早期 比较 流行 的 观点 ,在 许多 文献 可 以 看 到 
这 种 说 法 。 因 此 ,从 这 个 意义 上 说 ,数据 挖掘 就 是 从 数据 库 、 数 据 仓库 以 及 其 他 数据 存储 方 
式 中 挖掘 有 用 知识 的 过 程 。 这 种 描述 强调 了 数据 挖掘 在 源 数 据 形式 上 的 多 样 性 。 

(2) 数据 挖掘 是 KDD 过 程 的 一 个 步骤 (从 狭义 角度 考虑 ) 。 这 种 观点 得 到 大 多 数学 者 
认同 ,有 它 的 合理 性 。KDD 是 一 个 广义 的 范畴 . 它 包 括 数据 清洗 、 数 据 集 成 .数据 选择 、 数 据 
转换 数据 挖掘 、 模 式 生 成 及 评估 等 一 系列 步骤 。 这 样 ,可 以 把 KDD 看 作 是 一 些 基本 功能 
构件 的 系统 化 协同 工作 系统 ,而 数据 挖掘 则 是 这 个 系统 中 的 一 个 关键 的 部 分 。 

(3) KDD 与 Data Mining 含义 相同 (从 广义 角度 考虑 ) 。 有 些 人 认为 ,KDD 与 Data 
Mining 只 是 叫 法 不 一 样 , 它 们 的 含义 基本 相同 。 事 实 上 ,在 现今 文献 的 许多 地 方 , 这 两 个 术 
语 仍然 不 加 区 分 地 使 用 着 。 

从 上 面 的 描述 中 可 以 看 出 ,数据 挖掘 概念 可 以 在 不 同 的 技术 层面 上 来 理解 ,但 是 其 核心 
仍然 是 从 数据 中 挖掘 知识 。 数 据 挖掘 定义 有 广义 和 狭义 之 分 。 从 广义 的 观点 上 ,数据 挖掘 
是 从 大 型 数据 集中 ,挖掘 隐 含 在 其 中 的 、 人 们 事先 不 知道 的 、 对 决策 有 用 的 知识 的 过 程 。 从 
狭义 的 观点 上 ,可 以 定义 数据 挖掘 是 从 特定 形式 的 数据 集中 提炼 知识 的 过 程 。 

12. 解释 将 Data Mining 理解 为 KDD 整个 过 程 的 一 个 关键 步骤 地 合理 性 。 

SEER: 略 。 

13. 根据 挖掘 数据 的 对 象 不 同 , 可 以 将 数据 挖掘 技术 进行 分 类 , 简 述 这 些 分 类 类 型 。 

参考 答案 : 根据 挖掘 数据 的 对 象 不 同 .数据 挖掘 技术 可 以 分 为 关系 型 数据 库 挖掘 、 面 向 
对 象 数据 库 挖掘 、 空 间 数 据 库 挖 掘 、 时 态 数据 库 挖掘 、 文 本 数据 库 挖掘 、 多 媒体 数据 库 挖 气 、 
异 质 数据 库 挖掘 、 遗 产 数据 库 挖掘 、Web 数据 挖掘 等 。 

14. 根据 数据 挖掘 技术 所 依赖 的 主要 技术 来 划分 .数据 挖掘 技术 有 哪些 主要 的 分 类 ? 
简 述 这 些 类 型 的 主要 技术 特点 。 

BEER: ik. 


15. 粗糙 集 的 知识 形成 主要 是 基于 什么 思想 的 ? 简 述 粗糙 集 理 论 中 的 信息 系统 .近似 
空间 、 下 近似 、 上 近似 、 约 简 等 概念 。 

参考 答案 : 粗糙 集 的 知识 形成 思想 可 以 概括 为 : 一 种 类 别 对 应 于 一 个 概念 (类 别 一 般 
表示 为 外 延 即 集合 .而 概念 常 以 如 规则 描述 这 样 的 内 涵 形 式 表 示 ) ,知识 由 概念 组 成 ; 如 果 
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某 知 识 中 含有 不 精确 概念 , 则 该 知识 不 精确 。 粗 糙 集 理论 是 一 种 研究 不 精确 .不 确定 性 知识 
的 数学 工具 。 

D 信息 系统 : 一 个 信息 系统 S 是 一 个 四 元 组 $= 二 ~<U,A,V,f 放 ,其 中 U 是 对 象 (或 事 
BD MARE A. WH US {zi,zs,…,z,); A 是 属性 的 有 限 集合 , 记 为 A= {A,A 
An); V 是 属性 的 值 域 集 , 记 为 V={Vi Vow Vn) ,其 中 Vi 是 属性 A; 的 值 域 ; f 是 信息 函 
数 (Information Function), Bl f; UXA>V.,f(zi,A))EV,. 

(2) 近似 空间 : 近似 空间 有 一 个 二 元 组 <U,RCB) 二 给 出 ,其 中 U 是 对 象 (或 事例 ) 的 有 
RES, HUS {zi ,zs，…,z,}; B 是 A 的 属性 子 集 ,R(B) 是 U 上 的 二 元 等 价 关系 , 即 
R(B)={ (21 +22) | f(a +b) = f(x,6) ,6b E€ B}. 

(3) 下 近似 和 上 近似 : 对 任意 一 个 概念 (或 集合 )O,B 是 U 的 一 个 子 集 ,O 的 下 近似 定 
义 为 BO={zEUILz]jnmpCO}, 其 中 [zj]am 表 示 工 在 RGB) 上 的 等 价 类 。O 的 上 近似 定义 
为 BO={zEUlLz]ae 门 O 天 蕊 }。 一 个 概念 (或 集合 ) 的 下 近似 中 的 元 素 肯 定 属于 该 概念 
(或 集合 ); 而 一 个 概念 (或 集合 ) 的 上 近似 概念 (或 集合 ) 只 是 可 能 属于 该 概念 。 

(4) 约 简 : 即 极 小 属性 集 ,也 就 是 去 掉 约 简 中 的 任何 一 个 属性 ,都 将 使 得 该 属性 集 对 应 
的 规则 覆盖 反例 , 即 导致 规则 与 例子 的 不 一 致 。 

16. 简 述 粗糙 集 知 识 形成 主要 过 程 , 为 什么 说 它 和 数据 挖掘 技术 在 解决 问题 空间 上 有 
很 大 的 重合 性 。 

参考 答案 : 略 。 
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第 2 章 知识 发 现 过 程 与 应 用 结构 


1. KDD 是 一 个 多 步骤 的 处 理 过 程 , 它 一 般 包含 哪些 基本 阶段 ? 简 述 各 阶段 的 功能 。 

参考 答案 : KDD 是 一 个 多 步 又 的 处 理 过 程 ,一 般 分 为 问题 定义 、 数 据 抽取 、 数 据 预 处 
理 、 数 据 挖掘 以 及 模式 评估 等 基本 阶段 。 

(1) 问题 定义 阶段 的 功能 : 和 领域 专家 以 及 最 终 用 户 紧 密 协作 ,一 方面 了 解 相关 领域 
的 有 关 情 况 ,熟悉 背景 知识 ,和 弄 清 用 户 要 求 , 确 定 挖掘 的 目标 等 要 求 ; 另 一 方面 通过 对 各 种 
学 习 算 法 的 对 比 进而 确定 可 用 的 学 习 算 法 。 

(2) 数据 抽取 阶段 的 功能 : 选取 相应 的 源 数据 库 , 并 根据 要 求 从 数据 库 中 提取 相关 的 
数据 。 

(3) 数据 预 处 理 阶段 的 功能 : 对 前 一 阶段 抽取 的 数据 进行 再 加 工 , 检 查 数据 的 完整 性 
及 数据 的 一 致 性 。 

(4) 数据 挖掘 阶段 的 功能 : 运用 选 定 的 数据 挖掘 算法 ,从 数据 中 提取 出 用 户 所 需要 的 

(5) 模式 评估 阶段 的 功能 : 将 KDD 系统 发 现 的 知识 以 用 户 能 了 解 的 方式 呈现 ,并 且 根 
据 需 要 进行 知识 评价 。 如 果 发 现 知识 和 用 户 挖掘 目标 不 一 致 , 则 重复 以 上 阶段 以 最 终 获 得 
可 用 的 知识 。 


2. 为 什么 一 个 完整 的 知识 发 现 要 多 种 技术 结合 .多 阶段 集成 。 
参考 答案 : Ms 


3. 简 述 在 数据 挖掘 前 要 进行 数据 预 处 理 的 理由 及 其 解决 的 主要 问题 。 

参考 答案 : 数据 预 处 理 包括 : 数据 清洗 .数据 变换 和 数据 归 约 等 ,是 进行 数据 分 析 和 挖 
掘 的 基础 。 如 果 所 集成 的 数据 不 正确 .数据 挖掘 算法 输出 的 结果 也 必然 不 正确 ,这 样 形成 的 
决策 支持 是 不 可 靠 的 。 因 此 ,要 提高 控 掘 结果 的 准确 率 , 数 据 预 处 理 是 不 可 忽视 的 一 步 。 

对 数据 进行 预 处理 ,一 般 需 要 对 源 数据 进行 再 加 工 ,检查 数据 的 完整 性 及 数据 的 一 致 
性 ,对 其 中 的 噪音 数据 进行 平滑 ,对 丢失 的 数据 进行 填补 ,消除 “ 脏 ” 数 据 ,消除 重复 记录 等 。 

4. 为 什么 在 知识 发 现 过 程 中 ,要 强调 和 用 户 交互 的 必要 性 ? 通常 需要 那些 专长 的 技术 
人 员 支 持 ? 

BAER. it 


5. 阶梯 处 理 过 程 模型 是 知识 发 现 的 基本 模型 , 画 出 它 的 基本 处 理 流 程 ,并 简要 说 明 各 
阶段 的 任务 。 

参考 答案 : 阶梯 处 理 过 程 模型 的 基本 处 理 流 程 如 图 2-1 所 示 。 

各 阶段 的 主要 任务 是 : 

CL) 数据 准备 : 了 解 相关 领域 的 情况 , 弄 清楚 用 户 的 要 求 , 确 定 挖 据 的 总 体 目标 和 方 
法 ,并 对 原 数 据 结构 加 以 分 析 、 确 定数 据 选择 原则 等 工作 。 

(2) 数据 选择 : 从 数据 库 中 提取 与 KDD 目标 相关 的 数据 。 

(3) 数据 预 处 理 : 主要 是 对 上 一 阶段 产生 的 数据 进行 再 加 工 , 检 查 数据 的 完整 性 及 数 
据 的 一 致 性 ,对 其 中 的 噪音 数据 进行 处 理 , 对 丢失 的 数据 可 以 利用 统计 方法 进行 填补 。 对 一 


s | 
”图 据 挖 所 原理 与 算法 (第 二 版 ) 教 师 用 书 


ar A 
1 TR 


数据 缩减 模式 


as aaa ye 


@ l “wee 
目标 数据 | 
证 Pee 


图 2-1 KDD 阶梯 处 理 过 程 模型 
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些 不 适合 于 操作 的 数据 进行 必要 的 处 理 等 。 

(4) 数据 缩减 : 对 经 过 预 处 理 的 数据 ,根据 知识 发 现 的 任务 对 数据 进行 抽取 处 理 , 使 数 
据 再 次 精简 取 其 精华 ,更 好 地 集中 于 用 户 挖掘 目标 上 。 

(5) 确定 KDD 的 目标 : 根据 挖掘 的 目标 和 用 户 的 要 求 , 确 定 KDD 所 发 现 的 具体 知识 
模式 和 类 型 (如 分 类 、 聚 类 .关联 规则 等 ) 。 

(6) 确定 数据 挖掘 算法 : 根据 上 一 阶段 所 确定 的 模式 ,选择 合适 的 数据 挖掘 算法 。 
(包括 选取 合适 的 参数 、 知 识 表 示 方 式 , 并 保证 数据 挖掘 算法 与 整个 KDD 的 评判 标准 相 
— BO. 

(7) 数据 挖掘: 运用 选 定 的 算法 ,从 数据 中 提取 出 用 户 所 需要 的 知识 。 

(8) 模式 解释 : 对 发 现 的 模式 进行 解释 。 在 此 过 程 中 ,为 了 取得 更 为 有 效 的 知识 ,可 能 会 
返回 前 面 处 理 步骤 中 的 某 些 步 以 改进 结果 ,保证 提取 出 的 知识 是 有 效 和 可 用 的 。 

O) 知识 评价 : 将 发 现 的 知识 以 用 户 能 了 解 的 方式 呈现 给 用 户 。 这 期 间 也 包含 对 知识 
的 一 致 性 的 检查 ,以 确信 本 次 发 现 的 知识 不 与 以 前 发 现 的 知识 相抵 触 。 

6. 简 述 螺旋 处 理 过 程 模 型 相对 于 阶梯 处 理 过 程 模型 的 优 缺 点 。 

参考 答案 : is 

7. 简 述 以 用 户 为 中 心 的 处 理 模 型 的 基本 思想 。 

参考 答案 : 注重 对 用 户 与 数据 库 交互 的 支持 ,用 户 根据 数据 库 中 的 数据 ,提出 一 种 假设 
模型 ,然后 选择 有 关 数 据 进 行 知识 的 挖掘 ,并 不 断 对 模型 的 数据 进行 调整 优化 ,以 提高 数据 


挖掘 的 准确 性 和 效率 。 因 此 ,以 用 户 为 中 心 的 处 理 模型 的 核心 是 将 与 用 户 的 交互 思想 贯穿 
于 数据 挖掘 的 整个 过 程 中 。 

8. 联机 KDD 模型 需要 解决 哪些 主要 问题 ? 

参考 答案 : it 


9. 知识 发 现 软件 或 工具 的 发 展 经 历 哪 三 个 主要 阶段 ? 简 述 他 们 的 主要 特点 。 
参考 答案 : 知识 发 现 软件 或 工具 的 发 展 经 历 了 独立 的 知识 发 现 软件 、 横 向 的 知识 发 现 
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工具 和 纵向 的 知识 发 现 解决 方案 三 个 主要 阶段 。 

(1) 独立 的 知识 发 现 软件 : 这 类 软件 要 求 用 户 必须 对 具体 的 数据 挖掘 技术 和 算法 有 相 
当 的 了 解 ,还 要 手工 负责 大 量 的 数据 预 处 理工 作 。 

(2) 横向 的 知识 发 现 工 具 : 这 些 集成 软件 属于 通用 辅助 工具 范畴 ,可 以 帮助 用 户 快速 
完成 知识 发 现 的 不 同 阶段 处 理工 作 。 使 用 这 些 工 具 , 用 户 可 以 在 数据 挖掘 和 知识 发 现 专家 
的 指导 和 参与 下 开发 对 应 的 应 用 ,起 到 了 加 速 应 用 研制 的 作用 。 

(3) 纵向 的 知识 发 现 解决 方案 : 这 种 方法 的 核心 是 针对 特定 的 商业 领域 和 商业 好 辑 提 
供 完 整 的 数据 挖掘 和 知识 发 现 解决 方案 。 


10. 横向 的 知识 发 现 工 具 集 和 纵向 的 知识 发 现 解决 方案 的 主要 区 别 是 什么 ? 
参考 答案 : it. 


11. 什么 是 知识 发 现 项 目的 过 程 化 管理 ? 它 的 意义 如 何 ? 

参考 答案 : 知识 发 现 是 一 个 包括 数据 抽取 数据 选择 、 数 据 挖掘 以 及 模式 评估 等 在 内 的 
系统 化 挖掘 知识 的 过 程 。 由 于 数据 挖掘 项 目 规模 庞大 ,进行 过 程 管理 可 以 使 其 更 加 规范 化 。 
有 效 过 程 化 管理 是 把 实际 问题 分 为 若干 子 任务 ,在 上 一 过 程 没 有 完成 的 情况 下 ,下 面 的 过 程 
不 能 进行 ,以 保证 各 个 阶段 的 有 序 执行 。 

通过 这 样 的 模块 化 的 管理 过 程 , 可 以 更 好 地 完成 数据 挖掘 任务 ,提高 数据 挖掘 的 效率 和 
精度 。 

12. 简 述 强度 挖掘 的 IMIN 过 程 模型 的 主要 阶段 和 任务 。 

参考 答案 : i. 

13. 简 述 数据 挖掘 语言 的 三 种 基本 类 型 和 特点 。 

参考 答案 : 根据 功能 和 侧重 点 不 同 ,数据 挖掘 语言 可 以 分 为 三 种 类 型 : 数据 挖掘 查询 
语言 .数据 挖掘 建 模 语言 .通用 数据 挖掘 语言 。 

(1) 数据 挖掘 查询 语言 : 遵循 类 似 SQL 的 语法 ,通过 数据 挖掘 的 任务 .功能 以 及 其 他 约 
束 的 指定 、 知 识 形成 和 展示 等 系列 工作 ,以 类 似 于 查询 的 形式 输入 到 数据 挖掘 系统 中 ,通过 
数据 挖掘 系统 产生 对 应 的 结果 。 

(2) 数据 挖掘 建 模 语 言 : 是 对 数据 挖掘 模型 进行 描述 和 定义 的 语言 。 数 据 挖掘 系统 在 
模型 定义 和 描述 方面 有 标准 可 以 遵循 ,那么 各 系统 之 间 可 以 共享 模型 , 既 可 以 解决 目前 各 数 
据 挖 据 系统 之 间 封 闭 性 的 问题 ,又 可 以 在 其 他 应 用 系统 中 间 嵌 入 数据 挖掘 模型 ,解决 统一 的 
知识 发 现 描述 问题 。 

(3) 通用 数据 挖掘 语言 : 通用 数据 挖掘 语言 合并 了 上 述 两 种 语言 的 特点 , 既 具 有 定义 
模型 的 功能 ,又 能 作为 查询 语言 与 数据 挖掘 系统 通信 ,进行 交互 式 挖掘 。 

14. 为 什么 说 数据 挖掘 语言 研制 对 数据 挖掘 技术 的 发 展 是 至 关 重 要 的 ? 

参考 答案 : iit. 


10 | 
园 据 挖掘 原理 与 算法 (第 二 版 ) 教 师 用 书 


第 3 章 关联 规则 挖掘 理论 和 算法 


1. 简单 地 描述 下 列 英文 缩写 或 短语 的 含义 。 

(1) Parallel Association Rule Mining 

(2) Quantities Association Rule Mining 

(3) Frequent Itemset 

(4) Maximal Frequent Itemset 

(5) Closed Itemset 

参考 答案 : (1) 并 行 关联 规则 挖掘 。 是 指 利用 并 行 处 理 技术 、 使 用 并 行 挖掘 算法 或 在 
并 行 计算 的 环境 下 完成 数据 的 高 效 挖掘 工作 。 

(2) 数量 关联 规则 挖掘 。 是 指 对 含有 诸如 工资 .价钱 等 非 离散 的 数值 属性 的 数据 进行 
挖掘 的 技术 。 数 量 关 联 规 则 挖掘 需要 解决 连续 属性 的 离散 化 等 问题 ,有 更 广泛 的 商业 应 用 。 

G) 频繁 项 目 集 。 是 指出 现 频率 高 的 项 目 对 应 的 集合 ,反映 交易 数据 中 项 目 出 现 的 频 
度 信息 。 控 掘 频 繁 项 目 集 是 关联 规则 挖掘 的 基础 ,许多 关联 规则 挖掘 方法 是 基于 频繁 项 目 
集 发 现 的 。 

(4) 最 大 频繁 项 目 集 。 是 指 在 频繁 项 目 集中 不 出 现 相 互 包含 的 项 目 子 集 。 最 大 频繁 项 
目 集 可 以 使 用 最 少 的 信息 来 保证 频 度 信息 的 不 丢失 。 

(5) 关闭 (或 闭 和 ) 项 目 集 。 简 单 地 说 ,对 于 一 个 关闭 项 目 集 的 任何 元 素 , 要 么 不 被 任何 
元 素 所 包含 ,要 么 只 被 小 于 它 的 支持 度 的 元 素 所 包含 。 

2. 解释 下 列 概念 

(1) 多 层次 关联 规则 

(2) 多 维 关联 规则 

(3) 事务 数据 库 

(4) 购物 篮 分 析 

(5) 强 关联 规则 

参考 答案 : 略 。 

3. 给 出 一 个 项 目 集 在 数据 集 D 上 的 支持 度 (Support) 的 定义 ,并 直观 地 解释 它 的 
EX. 

参考 答案 : LOLH 1, 在 数据 集 D 上 的 支持 度 是 包含 厂 的 事务 在 D 中 所 占 的 
百分比 。 直 观 上 说 ,一 个 项 目 集 在 一 个 数据 集 D 上 的 支持 度 反 映 了 这 个 项 目 集 在 数据 集中 
出 现 的 频率 。 


4. 从 统计 学 的 观点 说 明 一 个 项 目 集 工 在 数据 集 D 上 的 支持 度 的 含义 。 
参考 答案 : 略 。 


5. 满足 什么 样 条 件 的 项 目 集 是 频繁 项 目 集 和 最 大 频繁 项 目 集 ? 

参考 答案 : 对 项 目 集 IT 和 事务 数据 库 D,D 中 的 所 有 大 于 或 者 等 于 满足 用 户 指定 的 最 
小 支持 度 的 项 目 集 称 为 频繁 项 目 集 。 在 最 大 频繁 项 目 集 , 任 何 元 素 是 频繁 的 而 且 不 被 其 他 
元 素 所 包含 。 
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6. 以 购物 篮 应 用 为 例 说 明 挖掘 频繁 项 目 集 所 蕴含 的 商业 价值 。 
参考 答案 : it. 


7. 给 出 一 个 规则 的 可 信和 度 (Confidence) 的 定义 ,并 直观 地 解释 它 的 含义 。 
参考 答案 : 给 定 一 个 被 讨论 的 项 目 集 T MAG DAM LS), 的 可 信和 度 是 指 包含 h 
和 ze 的 事务 数 在 只 包含 一 的 事务 数 所 占 的 百分比 。 利 用 支持 度 定义 可 以 描述 为 : 
Confidence(1,>I,) = support(I, U 1;)/support(1), 
HP TSI. OL =e. 


8. 以 购物 篮 应 用 为 例 说 明 关 联 规则 挖掘 所 蕴含 的 商业 价值 。 
参考 答案 : 略 。 


9. 一 般 地 ,在 一 个 事务 数据 库 中 挖掘 关联 规则 通过 哪 两 个 主要 步骤 完成 ,各 步骤 的 主 
要 任务 和 目标 是 什么 ? 
参考 答案 : (1) 发 现 频繁 项 目 集 : 通过 用 户 给 定 的 最 小 支持 度 ,寻找 所 有 频繁 项 目 集 ， 
即 满足 support 不 小 于 最 小 支持 度 的 所 有 项 目 子 集 。 
(2) 生成 关联 规则 : 通过 用 户 给 定 的 最 小 可 信和 度 ,在 已 经 发 现 的 最 大 频繁 项 目 集中 , 寻 
找 可 信 度 不 小 于 用 户 给 定 的 最 小 可 信 度 的 关联 规则 。 
10. 思考 为 什么 事务 数据 库 中 挖掘 关联 规则 一 般 要 使 用 两 个 基本 步骤 ? 
参考 答案 : 略 。 
11. 证 明 著 名 的 Agrawal 挖掘 原理 之 一 : 频繁 项 目 集 的 子 集 是 频繁 项 目 集 。 
SEER. 略 。 
证 明 : 设 X 是 一 个 项 目 集 , 事 务 数据 库 T 中 支持 X 的 元 组 数 为 *。 对 X 的 任 一 非 空子 
WH Yi TPE Y 的 元 组 数 为 ;1。 
根据 项 目 集 支 持 度 的 定义 ,很 容易 知道 : 支持 X 的 元 组 一 定 支持 Y, 所 以 ss, B 
support(Y) > support(X), 
按 假设 ,项 目 集 X 是 频繁 项 目 集 , 即 
support(X) > minsupport, 
所 以 support(Y) >support(X)>minsupport. Alt Y 是 频繁 项 目 集 。 


12. 证 明 著 名 的 Agrawal 挖掘 原理 之 一 : 非 频 繁 项 目 集 的 超 集 是 非 频 繁 项 目 集 。 
BEER: ik. 
13. 给 定 如 表 3-1 所 示 的 一 个 事务 数据 库 , 写 出 Apriori 算法 生成 频繁 项 目 集 的 过 程 
(假设 Minsuport 一 50% ) 。 
表 3-1 事务 数据 库 示例 1 


TID Ttemset TID Ttemset 
1 a.csdse.f 4 a,c,d,e 
2 bsc f 5 asbrdsesf 


3 a.dsf 
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参考 答案 : 

L1 ÆR: Cl 二 {(a,4)(b,2)(c,3)(d,4)(e,3)(f,4)}; Ll= {a,c,d,e,f}。 

L2 Æ W: C2= {(ac,2)(ad,4)(ae,3)(af,3)(cd,2)(ce,2) (cf,2) (de,3)(df,3) 
(ef,2)}; L2= {ad,ae,af ,de,df}.。 

L3 生成 : C3 二 {(ade,3)(adf,3)(def,2)}; L3={ade,adf}. 

L4 生成 : C4: {(adef,2)}; LA=Ø. 

L5 生成 : C=O, L5=O. 

结束 后 ,最 大 频繁 项 目 集 为 {ade,ad/})。 


14. 给 定 如 表 3-2 所 示 的 一 个 事务 数据 库 , 写 出 Apriori 算法 生成 频繁 项 目 集 的 过 程 
(假设 Minsuport 二 40%)。 


表 3-2 事务 数据 库 示 例 2 


TID Ttemset TID Itemset 
1 1.3.4 4 2.5 
2 2.3.4.5 5 1,2,4,6,7 
3 1,3,5,7 6 2,4,6 


参考 答案 : i. 


15. 对 上 面 的 第 13 题 所 生成 的 最 大 频繁 项 目 集 ,跟踪 Rule-generate 来 生成 对 应 的 关 
联 规则 ( 设 minconfidence= 80%). 
参考 答案 : 生成 过 程 如 表 3-3 所 示 。 


表 3-3 生成 过 程 
序号 l Zai confidence support 规则 (是 否 是 强 规则 ) 
1 ade ad 75% 60% ade Ñ 
2 ade a 75% 60% ade & 
3 ade d 75% 60% dae 否 
4 ade ae 100% 60% aed 是 
5 ade e 100% 60% ead 是 
6 ade de 100% 60% dea 是 
7 adf ad 75% 60% ad—> f ®& 
8 adf a 75% 60% a>df & 
9 adf d 75% 60% d>af B 
10 adf af 100% 60% afd 是 
ii adf f 75% 60% frad Ñ 
12 adf df 100% 60% df >a 是 


16. 对 上 面 的 第 14 题 所 生成 的 最 大 频繁 项 目 集 ,跟踪 Rule-generate 来 生成 对 应 的 关 
联 规则 ( 设 minconfidence=60%) 。 
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参考 答案 : it. 


17. Apriori 算法 的 主要 性 能 瓶颈 是 什么 ? 

参考 答案 : Apriori 算法 的 主要 性 能 瓶颈 有 : 

CL) 多 次 扫描 事务 数据 库 ,需要 很 大 的 1/0 负载 ; 

(2) 可 能 产生 庞大 的 候选 集 ,由 L,-1 产 生 k- 候 选集 C， 是 指数 增长 的 。 


18. 针对 Apriori 算法 的 主要 性 能 瓶颈 提出 你 的 改进 想法 。 
参考 答案 : 略 。 


19. 基于 数据 分 割 (Partition) 的 方法 可 以 改善 Apriori 算法 的 效率 。 阐 述 它 的 理由 。 

参考 答案 : (1) 合理 利用 主 存 空间 。 数 据 分 割 为 块 内 数据 一 次 性 导入 主 存 提供 机 会 ， 
因而 提高 对 大 容量 数据 集 的 挖掘 效率 。 

(2) 支持 并 行 控 气 算法。 

20. 基于 采样 (Sampling) 的 方法 可 以 改善 Apriori 算法 的 效率 。 阐 述 它 的 理由 。 

SEER: ik. 


21. 基于 散 列 (Hash) 的 方法 ,可 以 改善 Apriori HIM BE. MRC HY ETH 

参考 答案 : 使 用 散 列 的 方法 产生 频繁 项 目 集 , 可 以 改善 Apriori 算法 的 效率 ,主要 是 因 
为 散 列 拥有 能 够 快速 查找 元 素 的 特性 。 这 种 方法 把 扫描 的 项 目 放 到 不 同 的 哈 希 桶 中 ,每 个 
项 目 集 最 多 只 可 能 在 一 个 特定 的 桶 中 。 这 样 可 以 对 每 个 桶 中 的 项 目 子 集 进行 测试 ,减少 了 
候选 集 生成 的 代价 。 

22. 除了 上 面 提 到 的 技术 可 以 用 于 改善 Apriori 算法 的 效率 以 外 ,你 认为 还 有 那些 技术 
可 以 被 应 用 来 解决 这 个 问题 。 

参考 答案 : 略 。 


23. 一 个 项 目 集 是 闭合 的 (Closed) ,简单 地 讲 它 应 该 满足 什么 条 件 ? 

SEER. 一 个 项 目 集 C 是 闭合 的 , 当 且 仅 当 对 于 在 C 中 的 任何 元 素 , 不 可 能 在 C 中 
存在 小 于 或 等 于 它 的 支持 度 的 子 集 。 

24. 为 什么 说 在 闭合 项 目 集 格 空间 里 讨论 关联 规则 挖掘 问题 要 比 A priori 算法 效率 高 ? 

参考 答案 : 略 。 

25. FP-tree 的 算法 是 一 个 2 次 数据 库 扫描 算法 ,这 个 算法 的 基本 思想 是 什么 ? 

参考 答案 : FP-tree 算法 只 进行 2 次 数据 库 扫描 。 它 不 使 用 候选 集 ,直接 压缩 数据 库 成 
一 个 频繁 模式 树 ,最 后 通过 这 棵 树 生 成 关联 规则 。 

用 FP-tree 挖掘 频繁 集 基 本 思想 是 分 而 治之 , 即 用 FP-tree 递归 增长 形成 频繁 集 。 


26. 比较 Apriori 算法 ,阐述 FP-tree 的 算法 的 优 缺 点 。 

参考 答案 : 略 。 

27. 给 定 如 表 3-4 所 示 的 一 个 事务 数据 库 . 画 出 FP-tree 树 的 生成 过 程 。 

参考 答案 : (1) 首先 扫描 数据 库 按照 支持 度 将 序 排列 生成 索引 ,如 表 3-5 所 示 。 
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表 3-4 事务 数据 库 示例 3 表 3-5 索引 表 

TID Itemset Item SCP 
a,b,c e 5 
2 bscsdse b 4 
3 aycye d 3 
4 b,csd e 3 
5 b,csd,e a 2 


(2) 扫描 数据 库 , 对 每 个 事务 进行 树 的 增长 并 改变 支持 度 ,其 演化 过 程 如 图 3-1 所 示 。 


(a) (b) (c) 


图 3-1 FP-tree 生成 过 程 示意 图 


0-0-6-6 


(3) 连接 索引 表 , 生 成 最 终 的 结果 ,如 图 3-2 所 示 。 
28. 给 定 如 表 3-6 所 示 的 一 个 事务 数据 库 , 画 出 FP-tree 树 的 生成 过 程 。 


表 3-6 事务 数据 库 示例 4 


TID Itemset TID Itemset 
1 B,C,D,E 4 C,D,E,F 
2 A,C,E 5 A,B,C,D,E,F 
3 A-B.C.E 
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图 3-2 FP-tree 示意 图 


参考 答案 : mt. 


29. 衡量 关联 规则 挖掘 结果 的 有 效 性 应 该 从 哪些 方面 加 以 考虑 ? 简 述 其 理由 。 
参考 答案 : (1) 准确 性 : 挖掘 出 的 规则 必须 反映 数据 的 实际 情况 。 尽 管 规则 不 可 能 是 


100% 适 用 的 ,但 是 必须 要 在 一 定 的 可 信和 度 内 。 


(2) 实用 性 : 挖掘 出 的 规则 必须 是 简洁 可 用 的 ,而 且 是 针对 挖掘 目标 的 。 不 能 说 有 100 


条 规则 ,其 中 50 条 与 商业 目标 无 关 ,30 条 用 户 无 法 理解 。 


G) 新 颖 性 : 挖掘 出 的 关联 规则 可 以 为 用 户 提供 新 的 有 价值 信息 。 如 果 它 们 是 用 户 事 


先 就 知道 的 ,那么 这 样 的 规则 即使 再 正确 也 是 毫 无 价值 的 。 


30. 为 什么 说 用 户 从 主观 层面 上 为 关联 规则 挖掘 设 定 约束 条 件 是 必要 的 ? 应 该 从 几 个 


方面 来 考虑 这 个 问题 ? 


参考 答案 : 略 。 

31. 简 述 约束 在 数据 挖掘 中 的 作用 。 

参考 答案 : 归纳 起 来 ,约束 在 数据 挖掘 中 的 使 用 可 以 在 如 下 方面 起 到 关键 作用 。 

A) 聚焦 挖掘 任务 ,提高 挖掘 效率 : 利用 约束 ,把 具体 的 挖掘 任务 转换 成 对 系统 工作 的 


控制 ,从 而 使 挖掘 工作 按 着 期 望 的 方向 发 展 。 通 过 人 机 交互 和 探索 实验 ,可 以 快速 聚焦 挖掘 
任务 ,进而 提高 挖掘 效率 。 


(2) 保证 挖掘 的 精确 性 : 约束 的 使 用 可 以 帮助 发 现 问题 ,并 及 时 加 以 调整 ,使 知识 发 现 


的 各 个 阶段 按 着 正确 的 方向 发 展 。 


(3) 控制 系统 的 使 用 规模 : 约束 数据 挖掘 的 思想 为 系统 的 增 量 式 扩充 提供 条 件 。 当 基 


本 的 原则 和 目标 确定 后 ,可 以 把 一 些 有 待 验证 和 优化 的 问题 以 约束 参数 的 形式 交互 式 输入 ， 
通过 实验 找到 最 佳 值 。 在 挖掘 阶段 ,可 以 针对 不 同 的 子 目标 进行 约束 ,快速 聚焦 问题 ,加 快 


32. 从 挖掘 所 使 用 约束 的 类 型 看 ,可 以 把 用 于 关联 规则 挖掘 的 约束 分 为 哪些 类 型 ? 通 


过 实例 来 理解 这 些 类 型 的 应 用 。 


参考 答案 : it. 
33. 多 层次 关联 规则 挖掘 的 有 两 种 基本 策略 , 简 述 它们 可 能 存在 的 主要 问题 及 相关 对 策 。 
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BEER. 多 层次 关联 规则 挖掘 有 以 下 两 种 基本 的 设置 支持 度 的 策略 。 

(1) 统一 的 最 小 支持 度 : 对 于 所 有 层次 ,都 使 用 同一 个 最 小 支持 度 。 这 样 对 于 用 户 和 
算法 实现 来 说 ,相对 容易 ,而 且 很 容易 支持 层 间 的 关联 规则 生成 。 但 是 棘 端 也 是 显然 的 。 首 
先 ,不 同 层次 可 能 考虑 问 题 的 精度 不 同 、 面 向 的 用 户 群 不 同 。 对 于 一 些 用 户 , 可 能 觉得 支持 
度 太 小 ,产生 了 过 多 不 感 兴趣 的 规则 。 而 对 于 另外 的 用 户 来 说 ,又 认为 支持 度 太 大 ,有 用 信 
息 丢 失 过 多 。 

(2) 不 同 层次 使 用 不 同 的 最 小 支持 度 : 每 个 层次 都 有 自己 的 最 小 支持 度 。 较 低层 次 的 
最 小 支持 度 相 对 较 小 ,而 较 高 层次 的 最 小 支持 度 相对 较 大 。 这 种 方法 增加 了 挖掘 的 灵活 性 。 
但 是 ,也 留 下 了 许多 相关 问题 需要 解决 。 首 先 ,不 同 层次 间 的 支持 度 应 该 有 所 关联 ,只 有 正 
确 地 刻画 这 种 联系 或 找到 转换 方法 ,才能 使 生成 的 关联 规则 相对 客观 。 另 外 ,由 于 具有 不 同 
的 支持 度 , 层 间 的 关联 规则 挖掘 也 是 必须 解决 的 问题 。 例 如 ,有 人 提出 层 间 关联 规则 应 该 根 
据 较 低层 次 的 最 小 支持 度 来 定 。 


34. 为 什么 多 层次 关联 规则 挖掘 可 能 产生 规则 的 宛 余 问题 ,你 认为 应 该 如 何 有 效 地 避 
免 这 些 抑 余 问 题 可 能 带 来 的 副作用 。 
参考 答案 : 略 。 


35. 举例 说 明 单 维 关 联 规则 和 多 维 关联 规则 的 区 别 。 

参考 答案 : 多 维和 单 维 关联 规则 的 主要 区 别 在 于 维 数 。 比 如 ,年龄 (X,20 一 30)" 职业 
(X, 学 生 ) 三 二 购买 (X, 笔 记 本 电脑 )”。 这 里 涉及 三 个 维 ; 年 龄 ,职业 、 购 买 ,所 以 它 被 称 为 
多 维 关联 规则 。 而 又 比如 “啤酒 三 二 尿布 ”这 样 的 关联 规则 只 涉及 “购买 "这 一 单一 维 ,因此 
被 称 为 单 维 关 联 规则 。 


36. 思考 多 维 关联 规则 挖掘 所 带 来 的 主要 挑战 。 
BSR: i. 


37. 数量 关联 数 规则 要 解决 什么 样 的 问题 ? 简 述 处 理 数值 属性 的 基本 方法 。 

参考 答案 : 数量 关联 规则 挖掘 有 许多 问题 值得 讨论 。 目 前 比较 集中 和 急需 解决 的 关键 
问题 有 下 面 三 个 主要 方面 : 

(1) 连续 数值 属性 的 处 理 ; 

(2) 规则 的 优化 ; 

(3) 提高 挖掘 效率 。 

一 般 而 言 ,连续 数值 属性 的 处 理 有 两 种 基本 的 方法 : 

(1) 对 数值 属性 进行 离散 化 处 理 , 这 样 就 把 连续 的 数值 属性 转变 成 布尔 型 属性 ,因此 可 
以 利用 已 有 的 方法 和 算法 。 这 是 目前 研究 比较 多 的 方法 。 比 较 著 名 的 有 等 深度 桶 方法 、 部 
分 K 度 完全 方法 等 。 

(2) 不 直接 对 数值 属性 离散 化 ,而 是 采用 统计 或 模糊 方法 直接 处 理 它 们 。 直 接 用 数值 
字段 中 的 原始 数据 进行 分 析 .可 能 结合 多 层次 关联 规则 的 概念 ,在 多 个 层次 之 间 进 行 比较 从 
而 得 出 一 些 有 用 的 规则 。 


38. 简 述 数量 关联 规则 挖掘 的 一 般 步骤 。 
BAER: it. 
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第 4 章 分 类 方法 


1. 简单 地 描述 下 列 英文 缩写 或 短语 的 含义 。 

(1) Data Classification 

(2) k-Nearest Neighbors 

(3) Decision Tree 

(4) Entropy 

(5) Posterior Probability 

参考 答案 : (1) 数据 分 类 。 用 分 类 模型 (也 常常 称 作 分 类 器 ) 把 数据 库 中 的 数据 项 映射 
到 给 定 类 别 中 的 某 一 个 类 别 。 

(2) A- 最 临近 方法 。 它 是 一 种 基于 距离 的 分 类 算法 。 

(3) 决策 树 。 决 策 树 是 一 个 类 似 于 流程 图 的 树 结构 ,其 中 每 个 内 部 结 点 表示 在 一 个 属 
性 上 的 测试 ,每 个 分 支 代表 一 个 测试 输出 ,而 每 个 树叶 结 点 代表 类 或 类 分 布 。 树 的 最 顶层 结 
点 是 根 结 点 。 决 策 树 表 示 方 法 是 分 类 中 应 用 最 广泛 的 方法 之 一 。 

(4) Wio ER EEP AE A A ERA. TER RER H i PEA P AR e a EE i E 
信息 增益 。 

(5) 后 验 概 率 。 后 验 概 率 又 被 称 为 条 件 概率 ,是 在 已 知 结果 发 生 的 情况 下 , 求 导致 结 果 
的 某 种 原因 的 可 能 性 的 大 小 。 比 如 求 PCH |X). PCH) POX) PAX | HAR AE AT 


以 由 贝 叶 斯 公式 得 出 PCH | x) = PAUDPUD | 5 y PCH) 是 先 验 概 率 (Prior 


Probability), P(X | D KIRE H 成 立 的 情况 下 观察 到 X 的 概率 ,P( 互 |X) 是 后 验 概率 
CRRI X FH 的 后 验 概率 ) 。 


2. 简 述 数据 分 类 的 概念 。 

参考 答案 : ik. 

3. 数据 分 类 分 为 哪 两 个 步 又? 简 述 每 步 的 基本 任务 。 

参考 答案 : 分 类 归结 为 模型 建立 和 使 用 模型 进行 分 类 两 个 步骤 。 

第 一 步 的 基本 任务 是 建立 一 个 模型 并 描述 预定 的 数据 类 集 ; 第 二 步 的 基本 任务 是 评估 
模型 的 预测 准确 率 , 用 准确 率 可 以 接受 的 模型 对 类 标号 未 知 的 数据 进行 分 类 。 

4. 简 述 基于 距离 的 分 类 算法 的 主要 思想 。 

参考 答案 : 略 。 

5. 简 述 人 -最 临近 方法 的 主要 思想 。 

参考 答案 : 计算 每 个 训练 数据 (每 个 训练 数据 都 有 一 个 唯一 的 类 别 标识 ) 到 待 分 类 元 组 
的 距离 , 取 和 待 分 类 元 组 距离 最 近 的 & 个 训练 数据 ,k 个 数据 中 哪个 类 别 的 训练 数据 占 多 
数 , 则 待 分 类 元 组 就 属于 哪个 类 别 。 

6. 简 述 决策 树 算法 的 主要 步骤 。 

参考 答案 : it. 
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7. 决策 树 容易 转换 成 分 类 规则 , 试 把 图 4-1 所 示 的 决策 树 转换 成 分 类 规则 (假定 决策 
属性 为 buys_computer) 。 


>40 


credit_rating? 


fair 


图 4-1 一 个 决策 树 


参考 答案 : 

If age<30 and student=no Then buys_computer=no 

If age<30 and student=yes Then buys_cpmputer= yes 

If age>30 and age<40 Then buys_computer= yes 

If age>40 and credit_rating= excellent Then buys_computer= no 


If age>40 and credit_rating= fair Then buys_computer= yes 


8. 在 决策 树 算 法 中 , 剪 枝 的 作用 是 什么 ? 

参考 答案 : Ws. 

9. 表 4-1 给 出 了 一 个 关于 配 眼镜 的 一 个 决策 分 类 所 需要 的 数据 。 数 据 集 包含 以 下 5 个 
BHE: 

* age: (young, pre-presbyopic, presbyopic} 。 

e astigmatism; {no, yes}. 

* spectacle-prescrip: {myope.hypermetrope} 。 

* tear-prod-rate: {reduced, normal} 。 


* contact-lenses: {soft, none, hard} 。 
contact-lenses 是 决策 属性 ,手动 模拟 ID3 算法 来 实现 决策 过 程 。 
表 4-1 训练 数据 集 


age spectacle-prescrip astigmatism tear-prod-rate contact-lenses 
1 young myope no reduced none 
2 young myope no normal soft 
3 young myope yes reduced none 
4 young myope yes normal hard 
5 young hypermetrope no reduced none 
6 young hypermetrope no normal soft 
7 young hypermetrope yes reduced none 
8 young hypermetrope yes normal hard 
9 pre-presbyopic myope no reduced none 


10 pre-presbyopic myope no normal soft 
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续 表 
age spectacle-prescrip astigmatism tear-prod-rate contact-lenses 
11 pre-presbyopic myope yes reduced none 
12 pre-presbyopic myope yes normal hard 
13 pre-presbyopic hypermetrope no reduced none 
14 pre-presbyopic hypermetrope no normal soft 
15 pre-presbyopic hypermetrope yes reduced none 
16 pre-presbyopic hypermetrope yes normal none 
17 presbyopic myope no reduced none 
18 presbyopic myope no normal none 
19 presbyopic myope yes reduced none 
20 presbyopic myope yes normal hard 
21 presbyopic hypermetrope no reduced none 
22 presbyopic hypermetrope no normal soft 
23 presbyopic hypermetrope yes reduced none 
24 presbyopic hypermetrope yes normal none 


参考 答案 : (1) 计算 给 定 样本 contact-lenses 分 类 所 需 的 期 望 信息 。 

最 终 需要 分 类 的 属性 为 contact-lenses, 它 有 3 个 不 同 取 值 none, soft 和 hard. none 有 
15 个 样本 ,soft 有 5 个 样本 ,hard 有 4 个 样本 。 因 此 ,给 定 样本 contact-lenses 分 类 所 需 的 
期 望 信息 : 


4 
24 


5 


24 


15 15 

24 24 
= 0.424+0. 471+ 0. 431 = 1.326. 

(2) TERY BE SR HE TAG 

观察 age 的 每 个 样本 值 young. pre-presbyopic, presbyopic 的 分 布 ,具体 情况 如 表 4-2 所 示 o 


表 4-2 age 的 样本 值 分 布 


n E 3S a S log Š log: slog: 


none soft hard 


young 
pre-presbyopic 
presbyopic 


对 于 age young +51; =44521 =2.5 =2, 


4 4 2 2 2 2 
Ilsn » S21 9531) = 1(4,2,2) g loge 8 g 28 8 g loge 8 
一 0.5 十 0.5 十 0.5 一 1.5; 
对 于 age=pre-presbyopic.syz =5 +s22 =2+s3=1. 
5 5 2 2 1 1 
ICsiz ,szz +532) = 105,2,1) g 082 3 g lok: 3 g logz 3 


= 0. 424 + 0. 5 + 0. 375 = 1. 299; 
对 于 age= presbyopic, sı; =6 +523 = lss =1. 
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I(513 » 523 s833) = 1(6,1,1) Ë log, - Llog = Logs - 

= 0. 311 + 0. 375 + 0. 375 = 1.061; 

所 以 ,如 果 样 本 按 age 划分 ,对 一 个 给 完 a ee pi 
E(age) = Stn 9521 9531) + Ie s S22 9532) +3 A165 s S23 9533) 


= qa. 5+1. 299+ 1.061) = 1. 287. 


因此 ,如 果 样 本 按 age 划分 ,得 到 的 信息 增益 是 : 
Gain (age) = I(si,s2,53) — E(age) 1. 326 = 1. 287 0.039, 
观察 spectacle-prescrip 的 每 个 样本 值 myope, hypermetrope 的 分 布 ,具体 情况 如 
表 4-3 所 示 。 


R 4-3 spectacle-prescrip 的 样本 值 分 布 


contact-lenses 


~ none soft hard 
spectacle-prescrip 
myope 7 2 3 
hypermetrope 8 3 1 


对 于 spectacle-prescrip= myope» sn =7 +52) =2+53:=3; 


Bo hia ts 7 7 2 2 3 3 
Isun ssa 9831) = 1(7,2,3) 7g loge 12 12logz 17 qq lee: 12 
= 0. 454+ 0. 431+ 0.5 = 1. 385; 
对 于 spectacle-prescrip=hypermetrope. sız =8 +22 =3+53,=1- 
a 8 3 1 1 
ICsiz + S22 +532) = 1(8,3,1) Š logs 12 Ž log 12 yp lo: 2 


= 0.39+0.5+0, 299 = 1.189; 
所 以 ,如 果 样 本 按 spectacle-prescrip RJA) X — A 4 E NY PEAS PS OE HA HL: 


Btgpectacle-preserip) = rin Seis E rice ge 4a. 385+ 1. 189) = 1. 287, 


因此 ,假如 按 spectacle-prescrip 划分 ,信息 增益 是 : 


Gain (spectacle-prescrip) = (s,s2»s3) — E(spectacle-prescrip) 
= 1.326 — 1.287 = 0.039, 
观察 astigmatism 的 每 个 样本 值 no, yes 的 分 布 , 具 体 情 况 如 表 4-4 所 示 o 


表 4-4 astigmatism 的 样本 值 分 布 


contact-lenses 


: y none soft | hard 
astigmatism 
no vj 5 0 
yes 8 0 4 


对 于 astigmatism=no.s); 一 7,s =5+53; =0- 


T 5 0 


网 7 5 0 
Ilsn 9 S21 5531) = 1(7,5,0) 1zlogz I 771082 15 171082 13 
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= 0.454 + 0.53 +0 = 0.984; 
对 于 astigmatism= yes. siz =8 +522 =0+s32=4, 


4 
12 


8 8 0 0 4 
I(s12 » S22 9532) = 1(8,3,1) 131082 13 T3108: 13 77°82 


= 0. 39 +0 + 0. 53 = 0. 92; 
所 以 ,如 果 样 本 按 astigmatism R4) , X — A 4h E PERD E R A 


E(astigmatism) = Hen sS21 9831) 十 Bieu 9522 9532) = FO. 984+ 0.92) = 0.952, 
因此 ,假如 按 astigmatism 划分 ,信息 增益 是 : 


Gain (astigmatism) = I(s; .s2 ,ss) — E(astigmatism) = 1. 326 — 0. 952 = 0. 374. 
观察 tear-prod-rate 的 每 个 样本 值 reduced normal 的 分 布 ,具体 情况 如 表 4-5 所 示 。 


表 4-5 tear-prod-rate 的 样本 值 分 布 


contact-lenses 


none soft hard 
tear-prod-rate 
reduced 12 0 0 
normal 3 5 4 


对 于 tear-prod-rate 二 reduced,sn 二 12,sa 二 0,sa1 二 0， 


入 
12 12° 42, B °F? 12 


对 于 tear-prod-rate= normal, sız =3 4522 =5 s532 =4, 


Ílsns iassa) = 112,0,0) 12 log, 0+0+0=0; 


5 Ain 
2 FE 


Ker ee = M354) Slog: Slog, 


= 0.5 +0. 53 +0. 53 = 1.56, 
所 以 ,如 果 样 本 按 tear-prod-rate SY Ab , XF — 4 EA AE WIE AS PS LI ARA 


E(tear-prod-rate) = Hien Swa FETC sie 5 +500) = 去 (0 十 1.56) = 0.78。 


因此 ,假如 按 tear-prod-rate 划分 ,信息 增益 是 : 
Gain (tear-prod-rate) = I(s; +s2+s3) — E(tear-prod-rate) = 1. 326 —0.78 = 0.546, 

由 于 tear-prod-rate 在 属性 中 具有 最 高 的 信息 增益 ,所 以 它 首先 被 选 作 测试 属性 ,以 此 
创建 一 个 结 点 ,用 tear-prod-rate 标记 ,并 对 于 每 个 属性 值 ,引出 一 个 分 支 , 如 图 4-2 所 示 。 

G) 进一步 生成 左 子 树 和 右 子 树 。 

对 于 tear-prod-rate= reduced 的 所 有 元 组 ,其 类 别 标记 均 为 none。 所 以 ,根据 决策 树 生 
成 算法 步骤 2 和 步骤 3 ,得 到 一 个 叶子 结 点 .类别 标记 为 contactrlenses 一 none。 

对 于 tear-prod-rate= normal 的 右 子 树 中 的 所 有 元 组 ,首先 计算 出 给 定 样本 contact- 
lenses 分 类 所 需 的 期 望 信息 : 


4 
12 


ae z 3 5 5 4 
ICs; 952 953) = 1(3,5,4) 131082 12 171082 12 12logz 
= 0.5+0.53+0.53 = 1.56. 


对 于 tear-prod-rate= normal 的 右 子 树 中 的 所 有 元 组 (对 应 图 4-2 中 的 Ta) ,计算 其 他 三 
个 属性 的 信息 增益 。 


22 | 


辆 据 挖掘 原理 与 算法 (第 二 版 ) 教 师 用 书 


tear-prod-rate 


=reduced = normal 

Tı T2 

age spectacle-prescrip astigmatism contact-lenses age spectacle-prescrip astigmatism contact-lenses 
young myope no none young myope no soft 
young myope yes none young myope yes hard 
young hypermetrope no none young hypermetrope no soft 
young hypermetrope yes none young hypermetrope yes hard 
pre-presbyopic rmyope no none pre-presbyopic rmyope no soft 
pre-presbyopic rmyope yes none pre-presbyopic rmyope yes hard 
pre-presbyopic hypermetrope no none pre-presbyopic hypermetrope no soft 
pre-presbyopic hypermetrope yes none pre-presbyopic hypermetrope yes none 
presboyopic rmyope no none presboyopic rmyope no none 
presboyopic rmyope yes none presboyopic rmyope yes hard 
presboyopic — hypermetrope no none presboyopic 。 hypermetrope no soft 
presboyopic 。 hypermetrope yes none presboyopic 。 hypermetrope yes none 

图 4-2 tear-prod-rate 结 点 及 其 分 支 


观察 age 的 每 个 样本 值 young, pre-presbyopic, presbyopic 的 分 布 , 具 体 情 况 如 表 4-6 
所 示 。 
表 4-6 age 的 样本 值 分 布 


contact-len: 


none soft hard 


age 


young 


pre-presbyopic 


presbyopic 
对 于 age= young, sy, 一 0,s =2+53,=2, 
0 0 2 2 2 
Ilsn ssa 553, = 100,252) g 2e i 7 loge 4 7 28 r 
=0+0.5+0.5 = 1; 
对 于 age=pre-presbyopic. sy, = ls s22 =2+sy=1. 
1 1 2 2 1 1 
T(siz ,szz +532) = 1(1,2,1) 二 logz 4 4 1082 4 二 logz ri 
=0.5+0.51+0.5 = 1.5; 
对 于 age=presbyopic.s}3 =2 +523 =1.533=1. 
2 2 1 1 1 1 
T(sis » S23 5533) = 1(2,1,1) 7 logz 4 7 loge 4 z logz 4 
=0.5+0.5+0.5= 1.5. 


因此 ,如果 样 本 按 age RAD, XI — AR E MI PERAE E I A IY at 
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4 4 4 
E(age)= qzl» s521 9831) 十 al S22 9532) 十 jel Gs 9523 9 $33) 


= FC +1.541.5) = 1.335 
Gain (age) = I(s,+s2 ,ss) 一 下 (age) 1,56=1,33 0: 23., 
观察 spectacle-prescrip 的 每 个 样本 值 myope, hypermetrope 的 分 布 ( 对 应 图 4-2 中 的 
T: ) ,具体 情况 如 表 4-7 所 示 。 


表 4-7 spectacle-prescrip 的 样本 值 分 布 


contact-lenses 


~ none soft hard 
spectacle-prescrip 
myope 1 2 3 
hypermetrope 2 3 


对 于 spectacle-prescrip 二 myope,sn =1 52) =2+53:=3, 


3 
Isma K t log, i = log, 2 # log, 5 
= 0, 431 +0.53 +0. 5 = 1. 461; 
对 于 spectacle-prescrip= hypermetrope, sı: = 2 +522 =3+532=1. 
T(sy2 ,szz 9832) = I(2,3,1) 2 log, i 3 log, 3 Llog, i 


= 0. 53 + 0. 5 + 0. 431 = 1.461. 
因此 ,如 果 样 本 按 spectacle-prescrip SQ] 4} Xf — A 275 KE HYPE AR PAS RT A A R AF E EN = 


E(spectacle-prescrip) = Sion 9521 9531) + SiGe >See 9S32) 


= FC. 461 +1. 461) = 1.461; 


Gain (spectacle-prescrip) = I(s; ,sz ,ss ) — E(spectacle-prescrip) = 1.56 — 1.461 = 0. 099, 
观察 astigmatism 的 每 个 样本 值 no, yes 的 分 布 (对 应 图 4-2 中 的 T: ) ,具体 情况 如 
K 4-8 所 示 。 


表 4-8 astigmatism 的 样本 值 分 布 


contact-lenses 
A i none soft | hard 
astigmatism 
no 1 5 0 
yes 2 0 4 
对 于 astigmatism 一 no,sun 一 1,s 一 5.s3l 一 0， 
1 1 5 5 0 0 
Ilsn yszlyssl) 一 TI(1,5,0) g logz 6 g logz 6 6 logz 6 


= 0. 431 + 0. 219 +0 = 0. 65; 
对 于 astigmatism =no,sı: = 2, s22 = 0.53 =4, 


2 
6 


= 0. 53 + 0 +0. 39 = 0.92, 


0 
6 


4 
6 


TCs2 » See 5532) = 1(8,3,1) Z logs C log, Llog 
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因此 ,如 果 样 本 按 astigmatism 划分 ,对 一 个 给 定 的 样本 分 类 对 应 的 炉 和 信息 增益 为 : 


E(astigmatism) = ÉI sS21 9531) 十 Iu +S22 9532) = FO. 65+ 0.92) = 0. 785; 


Gain (astigmatism) = I(s,+s2 ,ss) — E(astigmatism) = 1.56 — 0.785 = 0.775. 
由 于 astigmatism 在 属性 中 具有 最 高 的 信息 增益 ,所 以 它 被 选 作 测试 属性 。 并 以 此 创 
建 一 个 结 点 ,用 astigmatism 标记 ,并 对 于 每 个 属性 值 ,引出 一 个 分 支 , 数 据 集 被 划分 成 两 个 
子 集 。 图 4-3 给 出 了 astigmatism 结 点 及 其 分 支 。 


| tear-prod-rate | 


= reduced = normal 


contact-lenses=none 


= mys. Tz 
Ti =no Gi 
7 age spectacle-prescrip contact-lenses 
age spectacle-prescrip contact-lenses 
young myope hard 
young myope soft 
young hypermetrope hard 
young hypermetrope soft : 
z pre-presbyopic myope hard 
pre-presbyopic myope soft Doit 
re-presbyopic metroj none 
pre-presbyopic hypermetrope soft prep i pie Pen pe 
z presbyopic myope hard 
presbyopic myope none isc b sar 
resbyopic me none 
presbyopic hypermetrope soft i P eee 


图 4-3 astigmatism 结 点 及 其 分 支 


对 于 astigmatism=no 的 左 子 树 中 的 所 有 元 组 ,由 于 仍然 不 能 做 出 统一 决策 ,因此 需要 
进一步 扩展 。 
首先 计算 出 给 定 样本 contact-lenses 分 类 所 需 的 期 望 信息 : 


ICs) sys)= 1(1,5,0) Llog: 5 2 


1 5 iog: 9 1og 
6 6 6 6 "6 


= 0. 431 +0. 219 +0 = 0.65. 
对 于 astigmatism = no 的 左 子 树 中 的 所 有 元 组 (对 应 图 4-3 中 的 Ta) ,计算 其 他 两 个 属 
性 的 信息 增益 。 
观察 age 的 每 个 样本 值 young, pre-presbyopic, presbyopic 的 分 布 ,具体 情况 如 表 4-9 所 示 。 
表 4-9 age 的 样本 值 分 布 


contact-lenses 


none soft hard 
age 
young 2 
pre-presbyopic 2 
presbyopic 1 1 
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对 于 age= young, sn =0,s2 =2.531=0, 


0 0 2 2 0 0 
T(silyszlyssl) 1(0,2,2) z 1082 2 z loge 2 z logz 7 0+0+0=0; 
对 于 age=pre-presbyopic. sy, =0+s2 二 2,532 =0, 

0 0 2 2 0 0 
ICsiz » S22 9 S32) 1(0,2,0) z logz 2 2 logz 2 z logz 0 十 0 十 0 一 0; 
对 于 age=presbyopic, si3 =1.523 一 1,ss 一 0， 

1 1 1 1 0 0 
T(s1s » S23 9 S33 ) 1(1,1,0) z loge 2 z loge 7 z log: 7 0.5+0.5+0=1, 


因此 ,如 果 样 本 按 age RIA, LF FF E EAR PS R A N EA 


E(age)= Ien dese iee sv 2151s i 


= 去 (0 二 0 二 1D) = 0.33; 


Gain (age) 一 TCsiysz +53) — E(age) 0.65 — 0. 33 0: 325 
观察 spectacle-prescrip 的 每 个 样本 值 myope, hypermetrope 的 分 布 ( 对 应 图 4-3 中 
Ti) ,具体 情况 如 表 4-10 所 示 。 


表 4-10 spectacle-prescrip 的 样本 值 分 布 


bi 
spectacle-prescrip 
myope 
hypermetrope 
对 于 spectacle-prescrip= myope,» sn 一 1,s 一 2,sa 一 0， 
1 1 2 2 0 
Ilsn ssa 5831) = 1(1,2,0) 3 loge 3 了 logz 3 3 1082 3 
= 0. 53+ 0. 39 +0 = 0.92; 
对 于 spectacle-prescrip=hypermetropes siz =0 +522 =3, s32 =0, 
0 0 3 3 0 0 
ICsy2 +522 9832) = 1(0,3,0) 3 loge 3 3 loge 3 了 logz 3 0+0+0=0, 


因此 ,如 果 样 本 按 spectacle-prescrip £4. Xh — A 4A aE H FF AB SP FS ME I) HBG AT fe SN 
益 为 : 


E(spectacle-prescrip) 一 Žie s52 9831) 十 Aisi 9522 9832) = 40 92+0) = 0. 46; 


Gain (spectacle-prescrip) = I(s; +s2+s;) — E(spectacle-prescrip) = 0.65 — 0.46 = 0.19. 
由 于 age 在 属性 中 具有 最 高 的 信息 增益 ,所 以 它 被 选 作 测试 属性 。 并 以 此 创建 一 个 结 
点 ,用 age 标记 ,并 对 于 每 个 属性 值 ,引出 一 个 分 支 ,数据 集 被 划分 成 三 个 子 集 。 图 4-4 给 出 了 
age 结 点 及 其 分 支 。 
针对 图 4-4 中 的 T, ,可 得 出 age=young.contact-lenses= soft, 
针对 图 4-4 中 的 T, ,可 得 出 age=pre-presbyopic.contact-lenses= soft, 
针对 图 4-4 中 的 Ts: ,可 继续 划分 ,得 出 spectacle-prescrip = myope 的 情况 下 contact- 
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age spectacle-prescrip contact-lenses 

young rmyope hard 

= young = presbyopic young hypermetrope hard 

T, = pre-presbyopic T; pre-presbyopic rmyope hard 

pre-presbyopic hypermetrope none 

spectacle-prescrip contact-lenses| spectacle-prescrip contact-lenses presbyopic rmyope hard 

| vote | [i | presbyopic hypermetrope none 
hypermetrope soft Ta hypermetrope soft 


图 4-4 age 结 点 及 其 分 支 


lenses= none, spectacle-prescrip= hypermetrope 的 情况 下 contact-lenses= soft, 

对 于 astigmatism 一 yes 的 右 子 树 中 的 所 有 元 组 ,由 于 仍然 不 能 做 出 统一 决策 ,因此 需要 
进一步 扩展 。 对 于 astigmatism= yes 的 右 子 树 中 的 所 有 元 组 (对 应 图 4-3 中 的 T: ) ,首先 计 
算出 给 定 样本 contact-lenses 分 类 所 需 的 期 望 信息 : 


Teiss = (20,4) 2 log, 2 


= 0.53+0+0. 39 = 0. 92. 
对 于 astigmatism= yes 的 右 子 树 .计算 其 他 两 个 属性 的 信息 增益 : 
观察 age 的 每 个 样本 值 young、pre-presbyopic、presbyopic 的 分 布 ,具体 情况 如 
表 4-11 所 示 。 


0 
6 


4 
6 


0 logs 和 loge 
6 6 


表 4-11 age 的 样本 值 分 布 


contact-lenses 


none soft hard 
age 
young 0 0 2 
pre-presbyopic 1 0 1 


presbyopic 1 0 1 
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对 于 age= young. sy, 一 0,s 一 0,ss 一 2， 
0 0 0 0 2 2 
Isun S21 +531) TOs252) z loge 2 z loge 2 2 logz 2 0+0+0=0; 
对 于 age=pre-presbyopic. sız =1. 52 =0; s3 =1, 
1 1 0 0 1 1 
ICsiz ,szz +832) = I(0,2,0) 7 lok 7 z loge 7 7 logz z 
=0.5+0+0.5= 1; 
对 于 age= presbyopic, sı; =l ,sz3 =0+533 =l, 
1 1 0 0 1 1 
ICsy3 +523 9833) = I(1,0,1) z loge 7 7 log 7 7 logz z 
=0.5+0+0.5=1, 


因此 ,如 果 样 本 按 age RU AP. XT — 4 R E PERDRE A A 9 AV SY EN 
E(age) = 216s, ii + 21s sm ee Ë sussa ios o+ 1+1) =0.67; 


Gain (age) = I(s1,s2 ,ss) 一 下 (age) 0.92 — 0. 67 = 0.25. 
观察 spectacle-prescrip 的 每 个 样本 值 myope, hypermetrope 的 分 布 ,具体 情况 如 


表 4-12 所 示 。 
表 4-12 spectacle-prescrip 的 样本 值 分 布 


contact-lenses 
none soft hard 
spectacle-prescrip 
myope 0 0 3 
hypermetrope 2 0 1 
对 于 spectacle-prescrip 一 myope,su 一 0,s =0+531 =3- 
T(siyszlysal ) T(0.0.3) + logs 2 Clog z loge 3 0+0+0=0; 
对 于 spectacle-prescrip=hypermetrope, sız = 2 +522 =0+5y =1- 
2 2 0 0 1 
ICsiz yszz 9532) = 1(0,3,0) 了 logz 3 了 logz 3 了 logz 3 


= 0.53 +0 +0. 39 = 0.92. 
因此 ,如 果 样 本 按 spectacle-prescrip Sl 4}. Rf — A Hr wz AI REAR SP FS AE ON IG A Gei G 


益 为 : 
cnn: A PERII 3 š 
E(spectacle-prescrip) = 6 Ilsn vszlyssl ) 十 6 T(slz ,szz ,Saz ) 


一 FO. 92 +0) = 0. 46; 


= I(s, +52 +s3) — E(spectacle-prescrip) 
= 0.92 — 0. 46 = 0.46, 

由 于 spectacle-prescrip 在 属性 中 具有 最 高 的 信息 增益 ,所 以 它 被 选 作 测试 属性 。 并 以 
此 创建 一 个 结 点 ,用 spectacle-prescrip 标记 ,并 对 于 每 个 属性 值 .引出 一 个 分 支 , 数 据 集 被 划 


分 成 两 个 子 集 。 图 4-5 给 出 了 spectacle-prescrip 结 点 及 其 分 支 。 


Gain (spectacle-prescrip) 
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= reduced = normal 


contact-lenses=none 


=no =yes 


spectacle-prescrip 


= young T, = myope = hypermetrope 


= presbyopic 


= pre-presbyopic age — spectacle-prescrip contact-lenses 


soft spectacle-prescrip 
young rmyope hard 
(Goft ) pre-presbyopic rmyope hard 
presbyopic rmyope hard Ta 
1 
age spectacle-prescrip contact-lenses 
young hypermetrope hard 
soft pre-presbyopic_hypermetrope none 


presbyopie hypermetrope none 


图 4-5 spectacle-prescrip 结 点 及 其 分 支 


针对 图 4-5 中 的 T, ,可 得 出 contact-lenses= hard. 
针对 图 4-5 中 的 T: ,可 继续 划分 ,得 出 age= young 的 情况 下 contact-lenses= hard; age 一 
pre-presbyopic 的 情况 下 contact-lenses = none; 得 出 age = presbyopic 的 情况 下 contact- 


lenses 一 none。 


因此 ,最终 的 决策 树 如 图 4-6 所 示 。 


tear-prod-rate 


= reduced = normal 
contact-lense: 
=no =yes 
age spectacle-prescrip 
= young = presbyopic = myope = hypermetrope 
an = pre-presbyopic 


= ya = i 
soft y presbyopic 


= myope 
= pre-presbyopic 


= hypermetrope Card) 
= QD = 


图 4-6 最终 的 决策 树 
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10. 用 程序 实现 ID3 算法 ,并 测试 上 题 的 结果 。 

参考 答案 : 略 。 

11. 下 面 的 例子 被 分 为 3 类 : (Short. Tall, Medium}. Height 属性 被 划分 为 (0,1. 6), 
(1.6,1.7),(1.7,1.8),(1.8,1.9),(1.9,2.0),(2.0,co), 通 过 表 4-13 ,请 用 贝 叶 斯 分 类 方 
法 对 例子 t= <Adam.M,1. 95m>H#E FTX. 


表 4-13 训练 数据 集 


No. Name Gender Height Output 
1 Kristina F 1. 6m Short 
2 Jim M 2m Tall 
3 Maggie F 1. 9m Medium 
4 Martha F 1. 88m Medium 
5 Stephanie F 1.7m Short 
6 Bob M 1. 85m Medium 
d Kathy F 1. 6m Short 
8 Dave M 1.7m Short 
9 Worth M 2.2m Tall 
10 Steven M 2.1m Tall 
11 Debbie F 1. 8m Medium 
12 Todd M 1. 95m Medium 
13 Kim F 1.9m Medium 
14 Amy F 1. 8m Medium 
15 Wynette F 1.75m Medium 


参考 答案 : 标号 类 属性 Output 具有 3 个 不 同 值 {Short,Tall,Medium}。 设 Cl 对 应 于 
类 Output="Short",C2 对 应 于 类 Output="Medium".C3 对 应 于 类 Output="Tall", 7% 
望 分 类 的 未 知 样本 t= 二 Adam,M,1.95m ,因此 需要 最 大 化 P(X|CD)P(Ci) ,i 二 1,2,3。 

每 个 类 的 先 验 概率 PCCi) 可 以 根据 训练 样本 计算 : 

e PCOutput="Short")=4/15=0. 267; 

e PCOutput="Medium") =8/15=0. 533; 

° PCOutput="Tall") =3/15=0, 200. 

为 计算 PCX| Ci) ,i 二 1,2,3, 计 算 下 面 的 条 件 概率 : 

。 P(Gender="M" | Output="Short") =1/4=0, 25; 

e P(Gender="M"|Output="Medium") =2/8=0. 25; 

e P(Gender="M"|Output="Tall") =3/3=1, 

e P(Height=(1. 9,2. 0]|Output="Short")=0/4=0; 

e P(Height= (1. 9,2. 0]|Output="Medium")=1/8=0. 125; 

e P(Height= (1. 9,2. 0]|Output="Tall") =1/3=0. 33. 

假设 条 件 独 立 性 ,使 用 以 上 概率 ,得 到 : 

。 P(X|Output="Short")=0.25X0=0; 

。 PCX|Output="Medium") =0. 25 X 0, 125 一 0. 0313; 
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e P(X|Output="Tall")=1X0. 33=0. 33. 

e P(X|Output="Short")P(Output="Short")=0X0. 267=0; 

e P(X|Output="Medium")P(Output="Medium")=0. 0313 X 0. 533=0. 0167; 
。 P(X|Output="Tall")P(Output="Tall")=0. 33X0. 2=0. 066. 
因此 ,对 于 样本 t=<Adam,M,1. 95m) ,朴素 贝 叶 斯 分 类 预测 Output 一 "Tall" 。 


12. 在 应 用 贝 叶 斯 方法 解决 实际 问题 的 时 候 , 可 能 会 出 现 观察 概率 为 0 的 情况 ,因此 在 
贝 叶 斯 分 类 中 这 项 概率 占有 统治 地 位 ,如 何 解决 上 述 问题 ? 

参考 答案 : i. 

13. EM 算法 分 为 哪 两 个 主要 步骤 ? 

参考 答案 : 在 EM 算法 的 一 般 形 式 里 , 它 重复 以 下 两 个 步 又: 下 步骤 和 M 步 又 ,直至 
收敛。 

(1) 估计 CE) 步骤 : 使 用 当前 假设 h 和 观察 到 的 数据 XX 来 估计 Y 上 的 概率 分 布 以 计算 
QA NA): Qh NR) ELInP(Y |h’) |h, X] 

(2) 最 大 化 (MD 步骤 : 将 假设 h 蔡 换 为 使 Q 函数 最 大 化 的 假设 : hearg maxQch’|h) » 

14. 简 述 EM 算法 每 个 步骤 的 主要 作用 。 

参考 答案 : 略 。 

15. 简 述 AQ 算法 中 “种 子 ” 与 “ 星 ” 的 概念 。 

参考 答案 : AQ 算 法 中 “种 子 " 是 一 个 正 例 ,“ 星 ”是 覆盖 种 子 而 同时 排除 所 有 反例 的 概 
念 描述 或 规则 。 

16. 假设 有 一 个 训练 集 , 其 包含 三 个 属性 : atl,at2,at3。 现 有 正 例 负 例 样本 分 别 如 
表 4-14 和 表 4-15 所 示 ,请 用 AQ 算法 对 十 类 的 规则 进行 获取 。 


表 4-14 正 例 样本 
atl at2 at3 class 
y n r + 
x m r + 
y n s w 
x n f + 
RAIS 负 例 样本 
atl at2 at3 class 


x*NNSES X 

Ss epseas 8 8 

ante no 
| 


17. 与 ID3 算法 相 比 ,CN2 算法 有 哪些 特点 ? 
参考 答案 : ID3 是 典型 的 应 用 信息 增益 进行 决策 树 分 析 的 分 类 算法 。CN2 算法 结合 了 
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ID3 算法 处 理 数据 的 效率 和 处 理 噪 音 数据 的 能 力 , 以 及 AQ 算法 家 族 的 灵活 性 。 通 过 改进 
去 除了 对 特定 数据 的 依赖 ,上 且 通过 统计 学 类 比 , 它 可 以 达到 与 使 用 树 剪 枝 方法 的 算法 同样 的 
效果 。CN2 使 用 一 种 基于 噪音 估计 的 启发 式 方法 来 终止 它 的 搜索 过 程 。 使 用 这 种 方法 可 
以 不 用 对 所 有 的 训练 样本 进行 正确 的 区 分 ,但 是 规约 出 的 规则 在 对 新 数据 的 处 理 上 有 很 好 
18. 假设 有 一 个 训练 集 , 用 CN2 算法 对 上 面 第 16 题 给 出 的 数据 集 进行 分 析 , 找 出 相应 
的 规则 。 
参考 答案 : iit. 


19. 简 述 FOIL 算法 的 主要 特点 。 

参考 答案 : FOIL 用 来 对 无 约束 的 一 阶 Horn 字句 进行 学 习 。FOIL 算法 由 一 个 空子 句 
开始 查找 ,其 不 断 地 向 当前 的 子 句 中 追加 文字 直到 没有 负 样 例 被 子 句 所 覆盖 。 之 后 ,FOIL 
重新 开始 一 个 子 句 的 查找 ,直到 所 有 的 正 样 例 均 被 已 经 生成 的 子 句 所 覆盖 。 

20. 简 述 FOIL 算法 与 CN2 算法 的 主要 不 同 点 。 

BEER: 略 。 


21. 简 述 分 类 数据 预 处 理 的 主要 方法 。 

参考 答案 : 数据 预 处 理 的 主要 方法 如 下 : 

(1) 数据 清理 : 主要 是 消除 或 减少 数据 噪声 和 处 理 空缺 值 。 

(2) 特征 选择 : 从 已 知 一 组 特征 集中 按照 某 一 准则 选择 出 有 很 好 的 区 分 特性 的 特征 子 
AE ,或 按照 某 一 准则 对 特征 的 分 类 性 能 进行 排序 ,用 于 分 类 器 的 优化 设计 。 

G) 数据 变换 : 通过 平滑 聚集、 数 据 概 化 规范化、 特征 构造 等 手段 将 数据 转化 为 适合 
于 挖掘 的 形式 。 

22. 简 述 分 类 中 数据 清理 的 常用 方法 。 

参考 答案 : 略 。 

23. 简 述 分 类 器 的 性 能 表示 与 评估 的 主要 方法 。 

参考 答案 : 分 类 器 性 能 的 表示 方法 类 似 信息 检索 系统 的 评价 方法 ,可 以 采用 OC 曲线 
和 ROC 曲线 ,混淆 矩阵 等 。 

常用 的 评估 分 类 方法 有 保持 法 和 交叉 验证 两 种 主要 方法 。 

CL) 保持 法 : 把 给 定 的 数据 随机 地 划分 成 训练 集 和 测试 集 这 两 个 独立 的 集合 。 通 常 ， 
三 分 之 一 的 数据 分 配 到 训练 集 ,三 分 之 二 的 数据 分 配 到 测试 集 。 使 用 训练 集 得 到 分 类 器 ,其 
准确 率 用 测试 集 评估 。 

(2) 交叉 验证 : 把 数据 随机 地 分 成 不 相交 的 、 大 小 基本 相等 的 nn 份 。 从 这 份 数 据 中 抽 
取 1 份 出 来 用 作 模型 测试 ,其 余 "一 1 份 数据 合 在 一 起 建立 模型 ,用 先 抽取 出 来 的 那 1 份 数 
据 对 此 模型 做 测试 。 这 个 过 程 对 每 一 份 数 据 都 重复 一 次 , 即 训练 和 测试 都 进行 n 次 ,得 到 n 
个 不 同 的 错误 率 , 最 后 用 所 有 数据 建立 一 个 模型 ,模型 的 错误 率 就 是 上 述 n 个 错误 率 的 
平均 。 

24. 如 何 评价 分 类 器 的 性 能 ? 

参考 答案 : 略 。 
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第 5 章 聚 类 方法 


1. 简单 地 描述 下 列 英文 缩写 或 短语 的 含义 。 

(1) Partitioning Method 

(2) Hierarchical Method 

(3) Density-based Method 

(4) Grid-based Method 

参考 答案 : C) 划分 法 。 它 将 数据 划分 为 个 组 ,同时 满足 如 下 的 要 求 : 每 个 组 至 少 包 
含 一 个 对 象 ; 每 个 对 象 必须 属于 且 只 属于 一 个 组 。 

(2) 层次 法 。 它 是 对 给 定数 据 对 象 集合 进行 层次 的 分 解 。 其 基本 思想 是 将 模式 样本 按 
距离 准则 逐步 聚 类 ,直到 满足 分 类 要 求 为 止 。 根 据 层 次 的 分 解 如 何 形 成 ,层次 的 方法 又 可 以 
分 为 凝聚 的 和 分 裂 的 。 

(3) 基于 密度 的 方法 。 它 将 具有 相同 密度 域 的 连通 区 域 作为 一 徐 。 因 此 , 它 需 要 扫描 
整个 数据 集 , 将 数据 空间 划分 为 不 同 的 小 方 格 ,并 使 用 小 方 格 的 并 来 近似 表示 簇 。 

(4) 基于 网 格 的 方法 。 这 种 方法 首先 将 数据 空间 划分 成 为 有 限 个 单元 (Cell) 的 网 格 结 
构 , 所 有 的 处 理 都 是 以 单个 单元 为 对 象 的 。 这 样 处 理 的 一 个 突出 优点 是 处 理 速度 快 ,通常 与 
目标 数据 库 中 记录 的 个 数 无 关 , 只 与 把 数据 空间 分 为 多 少 个 单元 有 关 。 

2. 简单 地 描述 下 列 英文 缩写 或 短语 的 含义 。 

(1) PAM 

(2) STING 

(3) DBSCAN 

SEER: 略 。 

3. 简 述 聚 类 的 基本 概念 。 

参考 答案 : 聚 类 就 是 把 整个 数据 分 成 不 同 的 组 ,并 使 组 与 组 之 间 的 差距 尽 可 能 大 ,组 内 
数据 的 差异 尽 可 能 小 。 

聚 类 分 析 的 输入 可 以 用 一 组 有 序 对 (X,s) 或 (X,d) 表 示 , 这 里 X 表示 一 组 样本 ,s Fl 
分 别 是 度量 样本 间 相 似 度 或 相 异 度 ( 距 离 ) 的 标准 。 聚 类 系统 的 输出 是 一 个 分 区 ,车 C= 
{Cy Cz see Cy} ,其 中 Ci;(i= 二 1,2…,k) 是 久 TRA: 

& Ua Us, Ua=x 
G GØ. ii 
C 中 的 成 员 Cy ,Cs ,…:Ce 叫做 类 。 

4.“ 物 以 类 聚 , 人 以 群 分 ", 请 举例 说 明 聚 类 的 基本 概念 。 

参考 答案 : 略 。 


5. 聚 类 分 析 具 有 重要 的 作用 , 简 述 聚 类 分 析 在 数据 挖掘 中 的 应 用 。 
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参考 答案 : 聚 类 分 析 在 数据 挖掘 中 的 应 用 主要 有 以 下 几 个 方面 : 

(1) 聚 类 分 析 可 以 作为 其 他 算法 的 预 处 理 步 又 。 利 用 聚 类 进行 数据 预 处 理 , 可 以 获得 
数据 的 基本 概况 ,在 此 基础 上 进行 特征 抽取 或 分 类 就 可 以 提高 精确 度 和 挖掘 效率 。 也 可 将 
聚 类 结果 用 于 进一步 关联 分 析 , 以 获得 进一步 的 有 用 信息 。 

(2) 可 以 作为 一 个 独立 的 工具 来 获得 数据 的 分 布 情况 。 聚 类 分 析 是 获得 数据 分 布 情况 
的 有 效 方 法 。 例 如 ,在 商业 上 , 聚 类 分 析 可 以 帮助 市 场 分 析 人 员 从 客户 基本 库 当中 发 现 不 同 
的 客户 群 ,并 且 用 购买 模式 来 刻画 不 同 的 客户 群 的 特征 。 通 过 观察 聚 类 得 到 的 每 个 簇 的 特 
点 ,可 以 集中 对 特定 的 某 些 簇 作 进 一 步 分 析 。 这 在 诸如 市 场 细 分 、 目 标 顾客 定位 、 业 绩 估 评 、 
生物 种 群 划分 等 方面 具有 广阔 的 应 用 前 景 。 

G) 聚 类 分 析 可 以 完成 孤立 点 挖掘 。 许 多 数据 挖掘 算法 试图 使 孤立 点 影响 最 小 化 ,或 
者 排除 它们 。 然 而 孤立 点 本 身 可 能 是 非常 有 用 的 。 如 在 欺诈 探测 中 ,孤立 点 可 能 预示 着 欺 
诈 行为 的 存在 。 

6. 举例 说 明 聚 类 分 析 的 用 途 。 

参考 答案 : mt. 


7. 你 认为 一 个 好 的 聚 类 算法 应 该 具备 哪些 特性 ? 

参考 答案 : 一 个 好 的 聚 类 算法 应 该 具备 如 下 特性 : 

。 可 伸缩 性 ; 

。 处 理 不 同类 型 属性 的 能 力 ; 

。 能 够 发 现任 意 形状 的 聚 类 ; 

。 输入 参数 对 领域 知识 的 弱 依赖 性 ; 

。 对 于 输入 记录 顺序 不 敏感 ; 

。 挖掘 算法 应 具有 处 理 高 维 数据 的 能 力 ; 

。 处 理 噪声 数据 的 能 力 ; 

。 基于 约束 的 聚 类 ; 

。 挖掘 出 来 的 信息 是 可 理解 的 和 可 用 的 。 

8. 简 述 基于 距离 的 聚 类 算法 的 主要 特点 。 

参考 答案 : 略 。 

9. 在 对 数据 进行 聚 类 的 时 候 , 会 遇 到 二 元 特征 样本 , 简 述 对 二 元 特征 样本 进行 距离 度 
量 的 主要 方法 。 

参考 答案 : 假定 zx My 分 别 是 n 维特 征 ,zx; Aly; 分 别 表 示 每 维特 征 , 且 zx Aly, 的 取 值 
为 二 元 类 型 数值 {10,1}。 则 工 和 > 的 距离 定义 的 常规 方法 是 先 求 出 如 下 几 个 参数 ,然后 采 
用 SMC, Jaccard 系数 或 Rao KM. 

(1) a 是 样本 xz 和 > 中 满足 z; 一 yw 王 1 的 二 元 类 型 属性 的 数量 。 

(2) b 是 样本 xz 和 > 中 满足 zi 一 1,y 一 0 的 二 元 类 型 属性 的 数量 。 

GO) c 是 样本 zx Aly 中 满足 x; 二 0,y; 二 1 的 二 元 类 型 属性 的 数量 。 

(4) d 是 样本 x 和 > 中 满足 xz; 一 yi 二 0 的 二 元 类 型 属性 的 数量 。 
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(5) 简单 匹配 系数 (Simple Match Coefficient.SMC) 


= a+b 
Sme (99) = Te Fa” 
(6) Jaccard 系数 
S(x,y) EENET 
(7) Rao 系数 
_ a 
Wile! = TTA 
10. 哪 种 聚 类 算法 对 噪声 数据 不 明显 ,可 以 发 现 不 规则 的 类 ? 
SEER: ik. 


11. 给 定 两 个 对 象 , 分 别 用 元 组 (22,1,42,10),(20.0,36,8) 表 示 。 
(1) 计算 两 个 对 象 之 间 的 欧 氏 距离 。 
(2) 计算 两 个 对 象 之 间 的 绝对 距离 。 


n 1/2 
参考 答案 : (1) 根据 两 个 对 象 之 间 的 欧 氏 距离 公式 day) = b> en e] 


d(x,y)=[ | 22—20 |? +| 1—0 |? +| 42 — 36 |? +| 10 一 8 |?]”? 
= (4+1 +36 +4)”? = 45"? = 6,708, 


(2) 根据 两 个 对 象 之 间 的 绝对 距离 公式 dz,y) = >) | zi 一 yi | 得 出 : 
imt 
d(x,y) = (22—20) + (1—0) + (42—36) + 0—8) = 2+1 +6 +2 =11, 


12. 请 说 出 在 聚 类 分 析 中 常用 的 距离 度量 方法 。 

参考 答案 : ik. 

13. 简 述 划分 聚 类 方法 的 主要 思想 。 

参考 答案 : 给 定 一 个 及 个 对 象 的 数据 集 ,划分 聚 类 技术 将 构造 数据 个 划分 ,每 一 个 
划分 就 代表 一 个 徐 ,k 三 xn。 也 就 是 说 , 它 将 数据 划分 为 k 个 簇 ,而 且 这 个 划分 满足 下 列 
条 件 : 

。 每 一 个 能 至 少 包含 一 个 对 象 。 

。 每 一 个 对 象 属于 且 仅 属于 一 个 艇 。 

对 于 给 定 的 &, 算 法 首先 给 出 一 个 初始 的 划分 方法 ,以 后 通过 反复 迭代 的 方法 改变 划 
分 ,使 得 每 一 次 改进 之 后 的 划分 方案 都 较 前 一 次 更 好 。 所 谓 好 的 标准 就 是 : 同一 艇 中 的 对 
象 越 近 越 好 ,而 不 同 簇 中 的 对 象 越 远 越 好 。 目 标 是 最 小 化 所 有 对 象 与 其 参照 点 之 间 的 相 异 
度 之 和 。 


14. 请 说 出 划分 聚 类 与 层次 聚 类 的 主要 特点 。 

参考 答案 : it. 

15. 请 用 4 平均 算法 把 表 5-1 中 的 8 个 点 聚 为 3 个 簇 ,假设 第 一 次 迭代 选择 序号 1 . 序 
号 4 和 序号 7 当 作 初 始点 ,请 给 出 第 一 次 执行 后 的 三 个 聚 类 中 心 以 及 最 后 的 三 个 簇 。 
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5-1 样本 数据 1 


序号 属性 1 属性 2 序号 属性 1 属性 2 
1 2 10 5 $ 5 
2 2 5 6 6 4 
3 8 4 7 Ï 2 
4 5 8 8 4 9 


参考 答案 : 对 所 给 定 的 数据 进行 上 平均 算法 ( 设 n=8,.2=3) ,以 下 为 算法 的 执行 步骤 。 

第 一 次 迭代 ,假定 随机 选择 的 三 个 对 象 ,如 序号 1 .序号 4 和 序号 7 当 作 初 始点 ,分 别 找 
到 离 三 点 最 近 的 对 象 ,并 产生 三 个 簇 {1}、{3,4,5,6,8 } 和 {2,7)。 

对 于 产生 的 簇 分 别 计算 平均 值 . 得 到 平均 值 点 。 

。 对 于 {1), 平 均值 点 为 (2,10); 

。 对 于 {3,4,5,6,8 ), 平 均值 点 为 (6,6); 

。 对 于 {2,7) ,平均 值 点 为 (1. 5.3.5). 

第 二 次 迭代 ,通过 平均 值 调整 对 象 的 所 在 的 簇 ,重新 聚 类 ,即将 所 有 点 按 离 平 均值 点 
(2,10)、(6,6)、(1.5,3.5) 最 近 的 原则 重新 分 配 。 得 到 三 个 新 的 徐 : (1,8)、{3,4,5,6} 和 
{2,7)。 重 新 计算 艇 平均 值 点 ,得 到 新 的 平均 值 点 为 (3,9.5)、(6.5,5.25) 和 (1. 543.5), 

第 三 次 迭代 ,将 所 有 点 按 离 平均 值 点 (3,9.5)、(6.5,5.25) 和 (1.5,3.5) 最 近 的 原则 重新 
分 配 。 得 到 三 个 新 的 簇 : {1,4,8)、{3,5,6) 和 {2,7)。 重 新 计算 徐 平 均值 点 ,得 到 新 的 平均 
值 点 为 (3.67,9)、(7,4.33) 和 (1.5,3.5)。 

第 四 次 迭代 ,将 所 有 点 按 离 平 均值 点 (3.67,9)、(7,4.33) 和 (1.5,3.5) 最 近 的 原则 重新 
分 配 。 调 整 对 象 , 驴 仍然 为 {1,4,8)}、{3,5,6} 和 {2,7) ,发 现 没 有 出 现 重新 分 配 , 而 且 准 则 函 
数 收敛 ,程序 结束 。 表 5-2 给 出 了 整个 过 程 中 平均 值 计 算 和 敌 生 成 的 过 程 和 结果 。 

因此 ,第 一 次 执行 后 的 三 个 聚 类 中 心 为 (2,10)、(6,6)、(1. 5,3.5), 最 后 的 三 个 簇 为 
{1,4,8},{3,5,6},{2,7}. 


表 5-2 FHAUAMREKHURMAR 


和 迭代 平均 值 平均 值 平均 值 产生 的 新 能 新 平均 值 | 新 平均 值 | 新 平均 值 

次 数 GE 1) GE 2) GE 3) GED Cf 2) GE 3) 
{1}. 

1 (2,10) (5.8) (1:2) {3,4,5,6.8 }, (2,10) (6.6) (1.533. 5) 
{2,7} 
{1,8}, 

2 (2,10) (6,6) | (1,543.5) {3,4,5,6}, (3,9.5) |(6.5,5.25)| 《1.5,3.5) 
{2.7} 
1.4.8} 

3 (3.9.5) |(6.5,5.25)| (1.5.3.5) {3,5,6}， (3.67.9) | (7.4.33) | (1.5.3.5) 
{2,7} 
1,4,8}, 

4 (3.67,9) | (7,4.33) | 1.5,3.5) (3:5:6); (3.67.9) | (7,4.33) | 《1.5,3.5) 
{257} 
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16. 举例 说 明 &- 平 均 算法 的 主要 思想 。 
参考 答案 : it. 


17. 请 说 出 A- 平 均 算 法 的 优点 和 缺点 。 

参考 答案 : 人 -平均 算法 的 优点 如 下 : 

。A- 平 均 算 法 简单 .快速 。 

。 对 处 理 大 数据 集 , 该 算法 是 相对 可 伸缩 的 和 高 效率 的 ,因为 它 的 复杂 度 是 O(n * 
ket) ,其 中 ,n 是 所 有 对 象 的 数目 ,k 是 徐 的 数目 ,i 是 迭代 的 次 数 。 通 常 地 ,kn, 且 
1<n。 这 个 算法 经 常 以 局 部 最 优 结束 。 

。 算 法 尝试 找 出 使 平方 误差 函数 值 最 小 的 个 划分 。 当 结果 簇 是 密集 的 ,而 簇 与 簇 之 
间 区 别 明显 时 , 它 的 效果 较 好 。 

k- 平 均 算法 的 缺点 如 下 : 

。k- 平 均 方法 只 有 在 簇 的 平均 值 被 定义 的 情况 下 才能 使 用 。 这 可 能 不 适用 于 某 些 应 
用 ,例如 涉及 有 分 类 属性 的 数据 。 

。 要 求 用 户 必 须 事先 给 出 &( 要 生成 的 得 的 数目 ) ,而 且 对 初 值 敏感 ,对 于 不 同 的 初始 
值 , 可 能 会 导致 不 同 的 聚 类 结果 。A- 平 均 方法 不 适合 于 发 现 非 凸 面 形状 的 复 ,或 者 
大 小 差别 很 大 的 徐 。 而 且 , 它 对 于 “噪声 ”和 孤立 点 数据 是 敏感 的 ,少量 的 该 类 数据 
能 够 对 平均 值 产生 极 大 影响 。 


18. 试 比较 有 -平均 算法 与 &- 中 心 点 算法 的 特点 。 

SEER: it. 

19. 简 述 &- 中 心 点 算法 的 主要 思路 。 

参考 答案 : &- 中 心 点 算法 选用 簇 中 位 置 最 中 心 的 对 象 作为 代表 对 象 ,试图 对 个 对 象 
给 出 个 划分 。 代 表 对 象 也 被 称 为 是 中 心 点 ,其 他 对 象 则 被 称 为 非 代 表 对 象 。 最 初 随机 选 
择 & 个 对 象 作 为 中 心 点 ,该 算法 反复 地 用 非 代 表 对 象 来 代替 代表 对 象 , 试 图 找 出 更 好 的 中 心 
点 ,以 改进 聚 类 的 质量 。 在 每 次 迭代 中 ,所 有 可 能 的 对 象 对 被 分 析 , 每 个 对 中 的 一 个 对 象 是 
中 心 点 ,而 另 一 个 是 非 代 表 对 象 。 对 可 能 的 各 种 组 合 ,估算 聚 类 结果 的 质量 。 一 个 对 象 O; 
被 可 以 产生 最 大 平方 -误差 值 减少 的 对 象 代替 。 在 一 次 迭代 中 产生 的 最 佳 对 象 集合 成 为 下 
次 迭代 的 中 心 点 。 

20. 简 述 PAM 算法 的 主要 步骤 。 

SEER: it. 


21. 简 述 凝聚 的 层次 聚 类 方法 的 主要 思路 。 

参考 答案 : 凝聚 的 层次 聚 类 是 一 种 自 底 向 上 的 策略 。 首 先 将 每 个 对 象 作为 单独 的 一 个 
徐 , 然 后 相继 的 合并 相近 的 对 象 或 组 ,将 较 小 的 数据 对 象 子 集合 依据 相似 程度 进行 合并 ,这 
些小 的 数据 对 象 子 集合 逐渐 合并 成 较 大 的 数据 对 象 子 集合 ,直到 所 有 的 类 合并 为 一 个 ,或 者 
达到 一 个 终止 条 件 , 从 而 构成 一 个 簇 的 层次 。 


22. 在 表 5-3 中 给 定 的 样本 上 运行 AGNES 算法 ,假定 算法 的 终止 条 件 为 3 个 复 ,初始 
{iht (3y lty {5){6} {T778} 
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表 5-3 样本 数据 2 


序号 属性 1 属性 2 序号 属性 1 属性 2 
1 2 10 5 7 5 
2 2 5 6 6 4 
3 8 4 7 1 2 
4 5 8 8 4 9 


23. ER 5-4 中 给 定 的 样本 上 运行 DIANA 算法 ,假定 算法 的 终止 条 件 为 3 PIR, WR 
#8 {1,2,3,4,5,6,7,8}. 


表 5-4 样本 数据 3 


序号 属性 1 属性 2 序号 属性 1 属性 2 
1 2 10 5 7 5 
2 2 5 6 6 4 
3 8 4 7 1 2 
4 5 8 8 4 9 


参考 答案 : 执行 过 程 如 下 : 
第 1 步 ,找到 具有 最 大 直径 的 得 ,对 秘 中 的 每 个 点 计算 平均 相 异 度 ( 假 定 采 用 是 欧 氏 
距离 )。 
。 1 的 平均 距离 : (5. 000 十 8. 485 十 3. 606 十 7.071 十 7. 211 十 8. 062 十 2. 236)/7 一 5. 953。 
2 的 平均 距离 : (5. 000 十 6. 082 十 4. 243 十 5. 000 十 4. 123 十 3. 162 十 4. 472)/7=4, 583。 
3 的 平均 距离 : (8.485 十 6. 082 十 5. 000 十 1. 414 十 2. 000 十 7. 280 十 6. 403)/7=5. 238. 
4 的 平均 距离 . (3. 606 十 4. 243 十 5. 000 十 3. 606 十 4. 123 十 7. 211 十 1. 414)/7=4, 172. 
5 的 平均 距离 : (7.071 十 5. 000 十 1. 414 十 3. 606 十 1. 414 十 6. 708 十 5. 000)/7=4. 316, 
6 的 平均 距离 : (7. 211 十 4. 123 十 2. 000 十 4. 123 十 1. 414 十 5. 385 十 5. 385)/7=4. 234. 
7 的 平均 距离 : (8. 062 十 3. 162 十 7. 280 十 7. 211 十 6. 708 十 5. 385 十 7. 616)/7 一 6. 489, 
。 8 的 平均 距离 : (2. 236 十 4. 472 十 6. 403 十 1. 414 十 5. 000 十 5. 385 十 7. 616)/7=4. 647. 
挑 出 平均 相 异 度 最 大 的 点 7 放 到 splinter group 中 ,剩余 点 在 old party 中 。 
第 2 步 ,在 old party 里 找 出 到 最 近 的 splinter group 中 的 点 的 距离 不 大 于 到 old party 
中 最 近 的 点 的 距离 的 点 ,将 该 点 放 入 splinter group 中 ,该 点 是 2。 
第 3 步 ,没有 新 的 old party 中 的 点 被 分 配给 splinter group ,此 时 分 型 的 复数 为 2。 
第 4 步 ,此 时 具有 最 大 直径 的 徐 为 {1,3,4.5.6.8) (具体 属性 值 见 表 5-5) ,对 得 中 的 每 个 
点 计算 平均 相 异 度 。 


表 5-5 具有 最 大 直径 的 敌对 应 的 属性 值 


序号 属性 1 属性 2 序号 属性 1 属性 2 
1 2 10 5 f 5 
3 8 4 6 6 4 
4 5 8 8 4 9 
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。 1 的 平均 距离 : 
3 的 平均 距离 ; 
4 的 平均 距离 : 
5 的 平均 距离 : 
6 的 平均 距离 : 
。 8 的 平均 距离 : 


(8. 
(8. 
(3. 
(7, 
(7, 
(2. 


4854 
4854 
60644 
0714 
2114 
23641 


r3. 
H5. 
H5. 
Fi 
F2. 
H6. 


60641 
0004 
0004 
4144 
0004 


E’ 
Pi 
F3. 
F3. 
H4. 


4034 


Fl. 


0714 
4144 
6064 
6064 
1234 
4144 


<. 2114 
. 0004 
. 1234 
. 4144 
. 4144 


F5, 


. 0004 


F5. 


. 236)/5=5. 722. 


385)/5=4. 088, 


挑 出 平均 相 异 度 最 大 的 点 1 放 到 splinter group 中 ,剩余 点 在 old party 中 。 

第 5 步 ,没有 新 的 old party 的 点 被 分 配给 splinter group ,此 时 分 裂 的 复数 为 3, 达 到 终 
止 条 件 。 表 5-6 给 出 了 整个 过 程 中 平均 值 计算 和 簇生 成 的 过 程 和 结果 。 
表 5-6， 平 均值 计算 和 簇生 成 的 过 程 


步 又 具有 最 大 直径 的 簇 splinter group old party 
1 {1,2,3,4,5,6,7,8} {7} {1,2,3,4,5,6,8} 
2 {1,2,3,4,5,6,7,8} {2,7} {1,3,4,5,6,8} 
3 {1,3.4,5,6,8} {1} {13,4,5,6,8} 

4 {1,3.4,5,6,8}) {1} {3,4,5,6,8} 


24. 请 分 析 DIANA 和 AGNES 算法 的 特点 。 


参考 答案 : i. 


25. 简 述 密度 聚 类 方法 的 主要 思路 。 
参考 答案 : 密度 聚 类 方法 的 指导 思想 是 ,只 要 一 个 区 域 中 的 点 的 密度 大 于 某 个 阔 值 ,就 
把 它 加 到 与 之 相近 的 聚 类 中 去 。 


26. 请 举例 说 明 DBSCAN 算法 的 主要 思想 。 


参考 答案 : 略 。 


27. 简 述 STING 算法 的 主要 特点 。 
参考 答案 : STING 算法 是 一 种 基于 网 格 的 多 分 辩 率 聚 类 技术 , 它 将 空间 区 域 划分 为 矩 
形 单元 。 由 于 存储 在 每 个 单元 中 的 统计 信息 提供 了 单元 中 的 数据 不 依赖 于 查询 的 汇总 信 
息 ,因而 计算 是 独立 于 查询 的 。 
STING 算法 的 质量 取决 于 网 格 结构 最 低层 的 粒度 。 如 果 粒 度 比较 细 , 处 理 的 代价 会 显 


著 增加 ; 但 如 果 粒 度 较 粗 , 则 聚 类 质量 会 受到 影响 。 


STING 算法 的 主要 优点 是 效率 高 ,通过 对 数据 集 的 一 次 扫描 来 计算 单元 的 统计 信息 ， 
因此 产生 聚 类 的 时 间 复 杂 度 是 O(n)。 在 建立 层次 结构 以 后 ,查询 的 时 间 复 杂 度 是 
O(g) +g 远 小 于 n。 此 外 ,STING 算法 采用 网 格 结构 :有 利于 并 行 处 理 和 增 量 更 新 。 
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第 6 章 时 间 序 列 和 序列 模式 挖掘 


1. 简单 地 描述 下 列 英文 缩写 或 短语 的 含义 。 

(1) Sequential Mining 

(2) Time Series 

(3) Offset Translation 

(4) Subsequence Ordering 

参考 答案 : 

(1) 序列 挖掘 。 它 是 指 从 数据 库 中 发 现 相对 时 间或 者 其 他 顺序 出 现 的 高 频率 子 序列 。 

(2) 时 间 序 列 。 从 统计 意义 上 来 讲 , 所 谓 时 间 序 列 就 是 将 某 一 指标 在 不 同时 间 上 的 不 
同 取 值 ,按照 时 间 的 先后 顺序 排列 而 成 的 数列 。 

G) 偏 移 变换 。 将 数据 使 用 偏 移 技 术 进 行 转换 ,以 利于 处 理 。 

(4) 子 序列 排序 。 它 的 主要 任务 是 从 没有 重生 的 子 序列 匹配 中 找 出 匹配 最 长 的 那些 
序列 。 


2. 解释 下 列 概念 。 
(1) 时 间 序 列 
(2) 偏 移 变换 
(3) 多 元 时 间 序 列 
(4) 子 序列 匹配 
参考 答案 : 略 。 


3. 简 述 时 间 序 列 挖掘 的 概念 。 

参考 答案 : 时 间 序 列 挖掘 就 是 要 从 大 量 的 时 间 序 列 数据 中 提取 人 们 事先 不 知道 的 ,但 
又 是 潜在 有 用 的 、 与 时 间 属 性 相关 的 信息 和 知识 ,并 短期 、 中 期 和 长 期 预测 ,指导 人 们 的 社 
会 经济、 军事 和 生活 等 行为 。 

4. 举例 说 明 时 间 序 列 挖掘 的 意义 。 

参考 答案 : 略 。 


5. 简 述 时 间 序 列 预测 的 常用 方法 。 

参考 答案 : 时 间 序 列 预测 的 常用 方法 有 : 

(1) 确定 性 时 间 序 列 预测 方法 。 设 法 消除 随机 型 波动 .分 解 季节 性 变化 、 拟 合 确定 型 趋 
势 ,因而 形成 对 发 展 水 平分 析 趋势 变动 分 析 和 长 期 趋势 加 周期 波动 分 析 等 一 系列 确定 性 时 
间 序 列 预测 方法 。 

(2) 随机 时 间 序 列 预测 方法 。 通 过 建立 随机 模型 ,对 随机 时 间 序 列 进行 分 析 , 可 以 预测 
未 来 值 。 若 时 间 序 列 是 平稳 的 ,可 以 用 自 回归 模型 .移动 回归 模型 或 自 回归 移动 平均 模型 进 
行 分 析 预 测 。 

(3) 神经 网 络 方法 。 通 过 对 某 段 历史 数据 的 训练 .通过 数学 统计 模型 估计 神经 网 络 的 
各 层 权 重 参数 初 值 , 从 而 建立 神经 网 络 预测 模型 ,用 于 时 间 序 列 的 预测 。 


40 | 
园 据 挖掘 原理 与 算法 (第 二 版 ) 教 师 用 书 


6. 简 述 常见 的 确定 性 时 间 序 列 预 测 模型 。 
参考 答案 : it. 


7. ARMA 模型 是 时 序 方法 中 最 基本 的 、 实 际 应 用 最 广 的 时 序 模型 ,请 简 述 该 模型 的 主 
要 思想 。 

参考 答案 : 由 于 ARMA 模型 是 一 个 信息 的 凝聚 器 ,可 将 系统 的 特性 与 系统 状态 的 所 有 
信息 凝聚 在 其 中 ,因而 它 也 可 以 用 于 时 间 序 列 的 匹配 。AR 模型 描述 的 是 系统 对 过 去 自身 
状态 的 记忆 ,MA 模型 描述 的 是 系统 对 过 去 时 刻 进入 系统 的 噪声 的 记忆 ,而 ARMA 模型 则 
是 系统 对 过 去 自身 状态 以 及 各 时 刻 进 入 的 噪声 的 记忆 。 


8. 请 简 述 AR 模型 参数 矩阵 估计 的 方法 ,以 及 判别 函数 的 构造 方法 。 
参考 答案 : Wt. 


9. 在 时 间 序列 分 析 方 面 ,离散 傅 里 叶 变换 具有 独特 的 优点 。 请 简 述 采用 该 方法 进行 完 
全 匹配 的 主要 思想 。 

参考 答案 : 所 谓 完 全 匹配 必须 保证 被 查找 的 序列 与 给 出 的 序列 有 相同 的 长 度 。 首 先进 
行 特征 提取 , 即 对 给 定 的 时 间 序列 进行 离散 傅 里 叶 变 换 。 其 次 进行 首次 筛选 ,用 欧 氏 距离 衡 
量 两 个 序列 是 否 相似 的 一 般 方 法 。 如 果 两 个 序列 的 欧 氏 距离 小 于 e 的 话 , 则 认为 这 两 个 序 
列 相似 ; 从 提出 特征 后 的 频 域 空间 中 找 出 满足 某 一 式 子 的 序列 ,这 样 就 滤 掉 一 大 批 与 给 定 
序列 的 距离 大 于 s 的 序列 。 

10. 在 时 间 序列 分 析 方 面 ,离散 傅 里 叶 变换 具有 独特 的 优点 。 请 简 述 采用 该 方法 进行 
完全 匹配 的 主要 思想 。 

BEER: i. 


11. 与 基于 距离 的 比较 方法 和 基于 传 里 叶 变 换 时 间 序 列 查 找 方法 相 比 ,基于 规范 变换 
的 查找 方法 具有 哪些 优点 ? 

SEER: 这 种 方法 经 过 原子 匹配 与 窗口 缝合 就 找 出 了 相似 的 子 序 列 , 通 过 对 子 序列 
排序 完成 了 序列 的 相似 查找 ,因此 该 方法 不 仅 适用 于 完全 匹配 ,而且 适 用 于 子 序列 匹配 。 另 
外 ,这 种 方法 中 过 滤 掉 了 一 些 Gap, 而 且 对 序列 作 幅 度 缩放 和 偏 移 变 换 , 所 以 该 方法 具有 良 
好 的 鲁 棒 性 ,在 算法 的 具体 执行 中 用 户 可 以 设 定 w,Y,e ,增加 了 算法 的 适用 性 。 


12. 请 比较 各 种 时 间 序 列 分 析 方 法 的 特点 。 
参考 答案 : 略 。 


13. 给 定 序列 数据 库 Dr ,请 说 明 Dr 上 的 频繁 &- 序 列 的 具体 含义 。 

参考 答案 : 支持 度 大 于 最 小 值 程 度 的 &- 序 列 , 称 为 Dr 上 的 频繁 &- 序 列 。 

14. 请 举例 说 明 序 列 的 包含 关系 。 

参考 答案 : iit. 

15. 简 述 序列 模式 挖掘 的 一 般 步 又。 

参考 答案 : 序列 模式 挖掘 包括 以 下 步骤 : 

(1) 排序 阶段 。 对 数据 库 进 行 排序 ,排序 的 结果 是 将 原始 的 数据 库 转 换 成 序列 数据 库 。 
(2) 大 项 集 阶段 。 这 个 阶段 要 找 出 所 有 频繁 的 项 集 ( 即 大 项 集 ? 组 成 的 集合 工 。 实 际 
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上 ,也 同步 得 到 所 有 大 1- 序 列 组 成 的 集合 , 即 { 一 /12E 工 )}。 

(3) 转换 阶段 。 在 寻找 序列 模式 的 时 候 ,要 不 断 地 检测 一 个 给 定 的 大 序列 集合 是 否 包 
含 于 一 个 客户 序列 中 。 在 转换 完成 的 客户 序列 中 ,每 条 交易 被 其 所 包含 的 所 有 大 项 集 所 取 
代 。 如 果 一 条 交易 不 包含 任何 大 项 集 , 在 转换 完成 的 序列 中 它 将 不 被 保留 。 但 是 ,在 计算 客 
户 总 数 的 时 候 , 它 仍 将 被 计算 在 内 。 

CA) 序列 阶段 。 利 用 转换 后 的 数据 库 寻 找 频繁 的 序列 , 即 大 序列 。 

(5) 选 最 大 阶段 。 在 大 序列 集中 找 出 最 长 序列 。 

16. 简 述 序列 模式 挖掘 的 各 个 步骤 的 主要 任务 。 

参考 答案 : ik. 

17. 请 简 述 AprioriAll 算法 的 主要 思想 。 

参考 答案 : AprioriAll 算法 源 于 频繁 集 算法 Apriori, 它 把 Apriori 的 基本 思想 扩展 到 序 
列 挖掘 中 ,也 是 一 个 多 遍 扫描 数据 库 的 算法 。 在 每 一 遍 扫描 中 都 利用 前 一 遍 的 大 序列 来 产 
生 候选 序列 ,然后 在 完成 对 整个 数据 库 的 遍历 后 测试 它们 的 支持 度 。 在 第 一 遍 扫 描 中 ,利用 
大 项 目 集 阶 段 的 输出 来 初始 化 大 1- 序 列 的 集合 。 在 每 次 遍历 中 ,从 一 个 由 大 序列 组 成 的 种 
子 集 开始 ,利用 这 个 种 子 集 ,可 以 产生 新 的 潜在 的 大 序列 。 在 第 一 次 遍历 前 ,所 有 在 大 项 集 
阶段 得 到 的 大 1- 序 列 组 成 了 种 子 集 。 

18. 请 用 AprioriAll 算法 在 如 表 6-1 所 示 的 数据 库 例 子 中 找 出 大 序列 ,假定 最 小 支持 度 
为 40%。 

表 6-1 序列 数据 库 示 例 


3-Sequence Support 


<4,5,7> 
<4,5,6> 
<4,6,7> 
<5,6,7> 
<4,6,.8> 


NNNUNN 


参考 答案 : 略 。 

19. AprioriSome 算法 的 执行 过 程 可 以 分 为 两 个 步骤 ,请 简 述 每 个 步骤 的 主要 任务 。 

参考 答案 : AprioriSome 算法 可 以 看 作 是 AprioriAll 算法 的 改进 ,具体 过 程 分 为 两 个 
阶段 : 

(1) 前 推 阶段 。 此 阶段 用 于 找 出 指定 长 度 的 所 有 大 序列 。 在 前 推 阶段 中 ,只 对 特定 长 
度 的 序列 进行 计数 。 

(2) 回溯 阶段 。 此 阶段 用 于 查找 其 他 长 度 的 所 有 大 序列 。 在 这 个 阶段 ,对 那些 在 前 推 
阶段 忽略 的 长 度 的 序列 进行 计算 。 因 为 需要 的 是 最 大 序列 ,所 以 可 以 在 前 推 阶段 就 删除 所 
有 包含 在 其 他 大 序列 中 的 序列 ,那些 序列 不 属于 需要 找 的 答案 集 。 同 时 也 删除 在 前 推 阶段 
找到 的 那些 非 最 长 的 大 序列 。 


20. 请 用 AprioriSome 算法 对 18 题 给 出 的 数据 库 例子 中 找 出 大 序列 ,假定 最 小 支持 度 
为 40%。 
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参考 答案 : it. 


21. 请 简 述 GSP 算法 的 主要 思想 。 

参考 答案 : GSP 算法 类 似 于 Apriori 算法 ,大 体 分 为 候选 集 产生 、 候 选集 计数 以 及 扩展 
分 类 三 个 阶段 。 与 AprioriAll 算法 相 比 ,GSP 算法 统计 较 少 的 候选 集 , 并 且 在 数据 转化 过 
程 中 不 需要 事先 计算 频繁 集 。 

GSP 算法 主要 包括 三 个 步骤 : 

(1) 扫描 序列 数据 库 ,得 到 长 度 为 1 的 序列 模式 Li , 作 为 初始 的 种 子 集 ; 

(2) 根据 长 度 为 i 的 种 子 集 L; 通过 连接 操作 和 剪 切 操作 生成 长 度 为 ;十 1 的 候选 序列 
模式 CH+i， 然 后 扫描 序列 数据 库 , 计 算 每 个 候选 序列 模式 的 支持 数 , 产 生长 度 为 ;十 1 的 序 
列 模式 Li ,并 将 Li;, 作 为 新 的 种 子 集 ; 

(3) 重复 第 二 步 ,直到 没有 新 的 序列 模式 或 新 的 候选 序列 模式 产生 为 止 。 


22. 与 AprioriSome 和 AprioriAll 相 比 ,GSP 算法 具有 哪些 优点 ? 
参考 答案 : 略 。 
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第 7 章 Web 挖掘 技术 


1. 简单 地 描述 下 列 英文 缩写 或 短语 的 含义 。 

(1) Web Content Mining 

(2) Web Usage Mining 

(3) Web Structure Mining 

(4) Crawler 

(5) Look up Page 

参考 答案 : C) Web 内 容 挖掘 。 是 对 站 点 的 Web 页 面 的 文本 以 及 多 媒体 等 内 容 进行 
的 分 析 和 挖掘 。 

(2) Web 访问 信息 挖掘。 是 对 用 户 访问 Web 时 在 服务 器 方 留 下 的 访问 记录 等 进行 挖 
据 , 发 现 用 户 的 潜在 访问 模式 。 

(3) Web 结构 挖 气 。 是 对 Web 页 面 之 间 的 链接 结构 进行 挖掘 。 

(4) 朴 虫 。 一 个 搜索 引擎 用 的 网 络 爬 行者 ,能 够 从 一 个 链接 到 另外 一 个 链接 ,遍历 网 
络 , 且 识别 和 阅读 网 页 的 程序 。 

(5) 查找 页 。 帮 助 用 户 查 找 站 点 内 的 特定 内 容 。 

2. 解释 下 列 概念 。 

(1) fek 

(2) 导航 页 

(3) 数据 入口 页 

(4) 用 户 会 话 

(5) 权威 页 面 

(6) 中 心 页 面 

参考 答案 : 略 。 

3. 简 述 Web 数据 挖掘 的 意义 。 

参考 答案 : Web 挖掘 的 实质 就 是 从 Web 页 面 及 其 链接 和 用 户 对 页 面 的 访问 中 挖掘 出 
用 户 感 兴趣 的 知识 。 通 过 Web 数据 挖掘 ,可 以 从 数 以 亿 计 存储 大 量 多 种 多 样 信 息 的 Web 
页 面 及 其 链接 和 用 户 对 页 面 的 访问 中 挖掘 出 需要 的 有 用 知识 。 

4. 举例 说 明 Web 数据 挖掘 的 意义 。 

参考 答案 : 略 。 


5. 根据 所 挖掘 的 信息 来 源 , Web 数据 挖掘 可 以 分 为 哪 几 类 ? 

参考 答案 : Web 挖掘 依靠 它 所 挖掘 的 站 点 信息 来 源 可 以 分 为 Web 内 容 挖掘 (Web 
Content Mining), Web 访问 信息 挖掘 (Web Usage Mining) 和 Web 24 #4 42 til (Web 
Structure Mining) 三 种 主要 类 型 。 


6. 简 述 Web 数据 挖掘 的 分 类 ,并 对 每 类 的 主要 任务 进行 描述 。 
参考 答案 : it. 
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7. 从 基于 关键 词 查 询 的 搜索 引擎 存在 的 主要 问题 角度 说 明 Web 挖掘 的 必要 性 。 

参考 答案 : 基于 关键 词 查询 的 搜索 引擎 至 少 有 两 个 问题 不 可 回避 : 

(1) 由 于 精确 度 低 ,使 得 搜索 的 结果 的 可 用 性 大 打折 扣 。 

(2) 搜索 结果 是 凌乱 的 无 组 织 的 ,因而 无 法 反复 使 用 。 

Web 挖掘 则 是 从 Web 页 面 及 其 链接 和 用 户 对 页 面 的 访问 中 挖掘 出 用 户 感 兴趣 的 知 
识 。 因 此 ,Web 挖 握 有 望 解决 目前 搜索 引擎 存在 的 问题 。 


8. 如 何 理解 Web 挖掘 是 一 个 交叉 研究 的 领域 。 
参考 答案 : it. 


9. Web 挖掘 的 数据 来 源 有 哪些 ? 

参考 答案 : Web 挖掘 面向 的 是 网 站 数据 ,这 些 数据 包括 网 页 文本 信息 、 网 页 链接 信息 、 
网 站 的 访问 记录 以 及 其 他 可 收集 的 信息 。 但 是 ,不 同 的 挖 据 目的、 不 同 的 挖掘 算法 总 是 依靠 
不 同 的 一 种 或 几 种 数据 源 。 例 如 Server 日 志 、Error 日 志 、Cookie 日志 ,在 线 市 场 数 据 \Web 
DUTT. Web 页 面 超 链接 以 及 包括 用 户 注 册 信息 等 数据 源 。 


10. 举例 说 明 Web 挖掘 可 以 对 服务 器 日 志 数据 进行 挖掘 。 
参考 答案 : Wt. 


LL, Web 内 容 挖掘 的 目的 是 什么 ? 

参考 答案 : Web 内 容 挖 气 的 目的 之 一 是 基于 页 面 内 容 相似 度 进行 用 户 分 类 或 聚 类 的 ， 
个 性 化 的 建立 是 通过 用 户 过 去 的 检索 内 容 分 析 而 建立 起 来 的 。Web 内 容 挖掘 目前 主要 可 
以 用 于 权威 页 面 的 发 现 ,以 及 分 析 相关 的 页 面 链接 结构 ,并 且 通 过 分 析 这 类 信息 来 获取 到 更 
多 需要 的 信息 。 例 如 ,现在 许多 Web 搜索 引擎 就 利用 Web 内 容 挖掘 中 的 Web 超 链 分 析 算 
法 来 提高 搜索 的 效率 和 准确 性 。 

12. 为 什么 说 Web 内 容 挖掘 的 基本 技术 是 文本 挖 握 ? 

参考 答案 : We. 


13. Web 页 面 内 容 预 处 理 的 目的 是 什么 ? 

BAER: Web 页 面 内 容 预 处 理 的 目的 是 把 包括 文本 (Text)、 图 片 (Image)、Script 和 
其 他 一 些 多 媒体 文件 所 包含 的 信息 转换 成 可 以 实施 Web 挖掘 算法 的 规格 化 形式 。 

14. 举例 说 明 Web 内 容 挖掘 在 个 性 化 方面 的 应 用 。 

参考 答案 : 略 。 

15. 简 述 Web 访问 信息 挖掘 的 特点 。 

参考 答案 : Web 访问 信息 挖掘 的 特点 : 从 挖掘 对 象 的 进一步 领域 化 .对 挖掘 方法 的 要 
求 以 及 挖掘 目的 三 个 角度 说 明 Web 访问 信息 挖掘 的 特殊 性 。 

16. 与 传统 的 基于 事务 的 数据 挖掘 方法 相 比 ,Web 访问 信息 挖掘 对 象 有 哪些 独特 的 
特点 ? 

参考 答案 : i. 

17. Web 访问 信息 挖掘 的 意义 是 什么 ? 

参考 答案 : Web 访问 信息 挖掘 的 意义 可 以 概括 为 如 下 几 点 。 
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(1) 改进 Web 站 点 的 效率 。 通 过 对 用 户 访问 信息 的 挖掘 ,得 到 大 多 数 用 户 的 访问 习 
惯 、 爱 好 和 其 他 有 用 信息 ,利用 这 些 信息 可 以 指导 网 站 提供 商 改 进 站 点 结构 和 布局 ,吸引 更 
多 用 户 。 

(2) 实现 个 性 化 推荐 。 随 着 互联 网 的 普及 和 电子 商务 的 发 展 , 电 子 商务 系统 在 为 用 户 
提供 越 来 越 多 选择 的 同时 ,其 结构 也 变 得 更 加 复杂 ,用 户 经 常会 迷失 在 大 量 的 商品 信息 空间 
中 ,无 法 顺利 找到 自己 需要 的 商品 。 在 日 趋 激 烈 的 竞争 环境 下 ,个 性 化 服务 是 包括 电子 商务 
在 内 的 网 站 提供 商 争 取 更 多 用 户 、 防 止 用 户 流失 以 及 实现 市 场 目 标的 重要 手段 。 

G) 商业 智能 的 发 现 。 从 过 去 的 访问 信息 特性 的 挖掘 ,发 现 新 的 商业 智能 ,用 于 指导 改 
进 服务 和 扩展 新 的 赢利 点 。 通 过 结合 日 志 数据 和 市 场 数 据 可 以 和 CRM 管理 结合 ,在 诸如 
顾客 吸引 (Customer Attraction) 顾客 保留 CCustomer Retention) 、 跨 区 销售 (Cross Sales), 
顾客 离开 (Customer Departure) 等 市 场 活动 中 找到 相应 的 最 佳 对 策 。 

(4) 发 现 导航 模式 。 用 户 的 导航 模式 是 指 群体 用 户 对 Web 站 点 内 的 页 面 的 浏览 顺序 
模式 。 在 电子 商务 环境 下 发 现 商 业 智 能 的 关键 是 发 现 用 户 的 导航 模式 。 这 种 导航 模式 也 是 
个 性 化 推销 的 基础 。 

(5) 抽取 访问 信息 特性 。 通 过 对 客户 端 ,服务 器 端 ,代理 服务 器 端 等 不 同 用 户 访问 信息 
的 挖掘 可 以 得 到 关于 用 户 交 互 情况 和 导航 情况 的 详细 的 信息 。 在 此 基础 上 可 以 提出 模型 ， 
用 于 预测 在 一 个 给 定 站 点 上 一 个 用 户 所 访问 的 页 面 的 概率 分 布 。 访 问 信息 的 特性 可 以 被 用 
于 在 Web 服务 器 上 开展 伸缩 性 和 负载 均衡 的 研究 等 方面 。 


18. 举例 Web 访问 信息 挖掘 的 好 处 。 
参考 答案 : it. 


19. Web 访问 信息 挖掘 的 作用 。 

参考 答案 : Web 访问 信息 挖掘 的 好 处 主要 有 : 

(1) 利用 Web 访问 信息 挖掘 可 以 实现 用 户 建 模 ; 

(2) 利用 Web 访问 信息 挖掘 发 现 导航 模式 ,从 而 改进 Web 站 点 的 结构 设计 ,实行 个 性 
化 推销 ; 

(3) 利用 Web 访问 信息 挖掘 改进 访问 效率 ,改进 服务 器 的 性 能 ; 

(4) 利用 Web 访问 信息 挖掘 还 可 以 进行 个 性 化 服务 ; 

(5) 利用 Web 访问 信息 挖掘 进行 商业 智能 发 现 ; 

(6) 利用 Web 访问 信息 挖掘 进行 用 户 移动 模式 发 现 。 

20. Web 访问 信息 挖掘 的 基础 和 最 烦琐 的 工作 是 数据 的 预 处 理 , 请 说 出 常用 的 Web 访 
问 信息 挖掘 的 预 处 理 方法 。 

参考 答案 : 略 。 


21. Web 访问 信息 挖掘 中 的 常用 技术 有 哪些 ? 

参考 答案 : Web 访问 信息 挖掘 中 的 常用 技术 有 如 下 几 种 。 

(1) 路 径 分 析 。 路 径 分 析 最 常见 的 应 用 是 用 于 判定 在 一 个 Web 站 点 中 最 频繁 访问 的 
路 径 , 这 样 的 知识 对 于 一 个 电子 商务 网 站 或 者 信息 安全 评估 是 非常 重要 的 。 

(2) 关联 规则 发 现 。 使 用 关联 规则 发 现 方法 可 以 从 Web 访问 事务 集中 ,找到 一 般 性 的 
关联 知识 。 
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O 序列 模式 发 现 。 在 时 间 惟 有 序 的 事务 集中 ,序列 模式 的 发 现 就 是 指 找到 那些 如 “一 
些 项 跟随 另 一 个 项 ”这样 的 内 部 事务 模式 。 

(4) 分 类 。 发 现 分 类 规则 可 以 给 出 识别 一 个 特殊 群体 的 公共 属性 的 描述 。 

(5) 聚 类 。 可 以 从 Web Usage 数据 中 聚集 出 具有 相似 特性 的 那些 客户 。 


22. 举例 说 明 Web 访问 信息 挖掘 中 可 采用 的 挖掘 方法 。 

参考 答案 : ik. 

23. 请 解释 用 户 建 模 ,并 说 出 常见 的 用 户 建 模 方法 。 

参考 答案 : 用 户 建 模 (Modelling Users) 是 指 根据 访问 者 对 一 个 Web 站 点 上 Web 页 面 
的 访问 情况 ,模型 化 用 户 的 自身 特性 。 在 识别 出 用 户 的 特性 后 就 可 以 开展 针对 性 的 服务 。 

常见 方法 有 : 

(1) 推断 匿名 访问 者 的 人 口 统计 特性 ; 

(2) 在 不 打扰 用 户 的 情况 下 ,得 到 用 户 概貌 文件 ; 

(3) 根据 用 户 的 访问 模式 来 聚 类 用 户 。 


24, Web 访问 信息 挖掘 可 以 实现 用 户 建 模 , 请 比较 各 种 用 户 建 模 方法 。 
参考 答案 : 略 。 


25. 简 述 利用 Web 访问 信息 挖掘 发 现 导航 模式 的 意义 。 

参考 答案 : 发 现 导 航模 式 (Discovering Navigation Patterns) Web 访问 信息 挖掘 的 一 
个 重要 的 研究 领域 。 用 户 的 导航 模式 是 指 群体 用 户 对 Web 站 点 内 的 页 面 的 浏览 顺序 模式 。 
用 户 导 航模 式 的 主要 应 用 在 改进 站 点 设计 和 个 性 化 推销 等 方面 。 得 到 的 导航 模式 可 以 指导 
网 站 设计 人 员 改 进 站 点 的 设计 结构 ,吸引 用 户 的 访问 .在 电子 商务 环境 下 发 现 市 场 智 能 的 关 
键 是 发 现 用 户 的 导航 模式 ,这 种 导航 模式 可 以 被 用 于 个 性 化 的 推销 。 


26, 发 现 导 航模 式 是 Web 访问 信息 挖掘 的 一 个 重要 的 研究 领域 ,请 简单 介绍 一 些 比 较 
著名 的 导航 模式 发 现 方法 。 
参考 答案 : ik. 


27. 为 什么 Web 访问 信息 挖掘 能 够 改进 访问 效率 ? 

参考 答案 : 利用 Web 访问 信息 挖掘 结果 可 以 在 许多 方面 改进 Web 站 点 的 访问 效率 ， 
Web 服务 器 推送 技术 , 自 适应 网 站 ,利用 导航 模式 的 结果 改进 Web 服务 器 的 性 能 这 些 都 能 
改进 访问 效率 ,而 这 些 技术 的 改进 都 可 以 通过 访问 信息 挖掘 。 


28. 请 举例 说 明 Web 访问 信息 挖掘 能 够 改进 访问 效率 。 
参考 答案 : 略 。 


29. 请 简 述 在 Web 站 点 开展 个 性 化 服务 的 总 体 思路 和 步骤 。 

参考 答案 : 在 Web 站 点 开展 个 性 化 (Personalization) 服 务 的 总 的 思路 和 步骤 是 : 
A) 模型 化 页 面 和 用 户 ; 

(2) 分 类 页 面 和 用 户 ; 

G) 在 页 面 和 对 象 之 间 进 行 匹配 ; 

(4) 判断 当前 访问 的 类 别 以 进行 推荐 。 
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30. 举例 说 明 Web 访问 信息 挖掘 在 个 性 化 服务 方面 的 应 用 。 
参考 答案 : 略 。 


31. 请 简 述 Web 结构 控 气 的 主要 任务 和 目的 。 

参考 答案 : 在 设计 搜索 引擎 等 服务 时 ,对 Web 页 面 的 链接 结构 进行 挖 气 以 得 出 有 用 的 
知识 是 提高 检索 效率 的 重要 手段 。Web 页 面 的 链接 类 似 学 术 上 的 引用 ,因此 一 个 重要 的 页 
面 可 能 会 有 很 多 页 面 的 链接 指向 它 。 也 就 是 说 ,如 果 有 很 多 链接 指向 一 个 页 面 , 那 么 它 一 守 
是 重要 的 页 面 。 通 过 链接 结构 的 挖掘 ,来 发 现 这 些 重要 页 面 。 

32， 请 给 出 一 种 Web 站 点 遍历 的 思路 。 

参考 答案 : 略 。 
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第 8 章 空间 挖掘 


1. 简单 地 描述 下 列 英文 缩写 或 短语 的 含义 。 

(1) Spatial Mining 

(2) Spatial Statistics 

(3) Minimum Bounding Rectangle 

(4) Geographic Information System 

(5) Spatial Online Analytical Mining 

参考 答案 : (1) 空间 挖掘 。 通 常 被 称 作 空 间 数据 挖掘 ,或 者 空间 数据 库 的 知识 发 现 , 是 
数据 挖掘 在 空间 数据 库 或 空间 数据 方面 的 应 用 。 

(2) 空间 统计 学 。 是 依靠 有 序 的 模型 来 描述 无 序 事件 ,根据 不 确定 性 和 有 限 的 信息 来 
分 析 、 评 价 和 预测 空间 数据 。 

G) 最 小 包围 矩形 (MBR)。 指 能 够 包围 某 一 个 图 形 的 面积 最 小 的 矩形 。 

(4) 地 理 信息 系统 (GIS)。 是 以 地 理 空间 数据 库 为 基础 ,对 空间 数据 进行 采集 、 储 存 、 管 
理 、 分析、 模拟 和 显示 ,实时 提供 空间 和 动态 的 地 理 环 境 信息 ,并 服务 于 辅助 决策 的 空间 信息 
系统 。 

(5) 空间 在 线 分 析 挖 气 (SOLAM) 。 是 建立 在 多 维 视图 基础 之 上 ,基于 网 络 的 验证 型 空 
间 数 据 挖掘 和 分 析 的 工具 ,强调 执行 效率 和 对 用 户 命令 的 及 时 响应 。 

2. 解释 下 列 概念 

(1) 网 格 文件 

(2) 专题 地 图 

(3) 空间 数据 仓库 

(4) 数字 地 球 

参考 答案 : Wt. 

3. 简 述 空间 挖掘 的 意义 。 

参考 答案 : 空间 挖掘 通常 被 称 作 空间 数据 挖掘 ,或 者 空间 数据 库 的 知识 发 现 , 它 是 从 空 
间 数 据 库 中 抽取 隐 含 的 知识 .空间 关系 或 非 显 式 地 存储 在 空间 数据 库 中 的 其 他 模式 ,用 于 理 
解 空 间 数据 发 现 数据 间 的 关系 。 由 于 大 量 的 空间 数据 从 各 种 应 用 中 收集 而 来 :收集 到 的 数 
据 远 远 超过 了 人 脑 分 析 的 能 力 。 空 间 挖掘 就 是 为 了 满足 高 效 空 间 数 据 处 理 的 需要 而 出 
现 的 。 

4. 举例 说 明 空 间 挖掘 的 意义 。 

参考 答案 : 略 。 

5. 简 述 空间 数据 的 特征 。 

参考 答案 : 由 于 空间 属性 的 存在 ,空间 数据 具有 复杂 性 的 特征 ,主要 表现 在 : 

(1) 空间 属性 之 间 的 非 线 性 关系 ; 

(2) 空间 数据 的 多 尺度 特征 ; 

(3) 空间 信息 的 模糊 性 ; 
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(4) 空间 维 数 的 增高 ; 
(5) 空间 数据 的 缺 值 现象 。 


6. 简 述 空间 查询 的 类 型 。 
参考 答案 : it. 


7. 常用 的 空间 数据 索引 结构 有 哪些 ? 
参考 答案 : 常用 的 空间 数据 索引 结构 有 : AE RHR H k -DH 


8. 与 传统 数据 库 索 引 技术 相 比 ,空间 索引 方法 具有 什么 样 的 特殊 性 ? 常用 的 空间 数据 


索引 结构 有 哪些 ? 


参考 答案 : it. 


9. 基于 两 个 空间 实体 的 位 置 ,空间 实体 之 间 的 拓扑 关系 可 以 概括 为 哪些 种 类 ? 
参考 答案 : 两 个 空间 实体 之 间 存 在 的 拓扑 关系 有 : DA M/S ET aT A 


M/R 


10. 假设 A 和 了 是 二 维 空间 中 的 两 个 空间 实体 ,基于 两 个 空间 实体 的 位 置 ,空间 实体 


之 间 的 拓扑 关系 可 以 概括 为 哪些 种 ? 


参考 答案 : 略 。 


11. 简 述 空间 数据 的 泛 化 方法 。 
参考 答案 : 空间 数据 的 泛 化 包括 空间 数据 支配 泛 化 和 非 空 间 数据 支配 泛 化 。 空 间 数 据 


支配 泛 化 做 的 是 基于 空间 位 置 的 聚 类 , 非 空间 数据 支配 泛 化 根据 非 空 间 属 性 值 的 相似 性 做 
RX ,归纳 出 高 层次 的 模式 或 特征 。 当 空间 数据 (或 非 空间 数据 ) 归 纳 之 后 , 非 空间 数据 (或 
空间 数据 ) 进 行 适当 的 调整 ,以 反映 新 的 空间 区 域 所 联系 的 非 空 间 数 据 。 


12. 简 述 空间 数据 支配 泛 化 算法 的 主要 思想 。 

参考 答案 : 略 。 

13. 请 给 出 空间 规则 的 概念 与 表示 方法 。 

参考 答案 : 空间 规则 是 在 一 定 的 知识 背景 下 ,对 数据 进行 概括 和 综合 ,在 空间 数据 库 


或 空间 数据 仓库 中 搜索 和 挖掘 规则 和 规律 ,得 到 的 以 概念 树 形 式 给 出 的 高 层次 的 模式 或 
特征 。 


在 空间 数据 挖掘 中 有 以 下 三 种 类 型 的 规则 。 

(1) 空间 特性 规则 : 描述 数据 。 

(2) 空间 判别 规则 : 描述 不 同 种 类 数据 间 的 差异 。 
(3) 空间 关联 规则 : 是 两 个 数据 集合 之 间 的 关联 。 


14. 请 说 出 空间 关联 规则 与 传统 关联 规则 的 关系 与 区 别 。 

参考 答案 : it. 

15. 简 述 空间 决策 树 的 基本 思路 。 

参考 答案 : 要 建造 一 个 空间 决策 树 ,首先 找到 空间 或 非 空 间 的 相关 谓词 ,然后 用 最 相关 


的 谓词 来 建造 树 。 
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16. 请 说 出 空间 决策 树 与 一 般 决策 树 的 关系 。 

参考 答案 : ik. 

17. 常用 的 空间 聚 类 方法 有 哪些 ? 

参考 答案 : 常用 的 空间 聚 类 方法 有 : 基于 随机 搜索 的 聚 类 方法 CLARANS 扩展 ,大 型 
空间 数据 库 基于 距离 分 布 的 聚 类 算法 DBCLASD,BANG 方法 ,小 波 聚 类 ,近似值 方法 。 

18. 请 列举 常用 的 空间 聚 类 方法 ,并 对 这 些 方法 进行 比较 。 

参考 答案 : 略 。 

19. 简 述 SOLAP 的 主要 任务 。 

参考 答案 : 空间 联机 分 析 处 理 SOLAP 是 针对 特定 问题 的 联机 空间 数据 访问 和 分 析 。 
在 空间 数据 挖掘 的 早期 阶段 ,SOLAP 工具 可 以 帮助 用 户 分 析 数 据 , 找 到 比较 重要 的 变量 ， 
发 现 异 常数 据 和 互相 影响 的 变量 ,帮助 用 户 更 好 地 理解 数据 ,加 快 知识 发 现 的 过 程 。 

20. 请 结合 GeoMiner, 谈 谈 一 个 空间 数据 挖掘 系统 应 该 具备 的 主要 功能 与 体系 结构 。 

参考 答案 : 略 。 
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Bi # 论 


本 章 总 学 时 估计 在 6 一 9. 5 学 时 ,教师 可 根据 讲授 的 对 象 和 总 学 时 计划 进行 安排 。 

1.1 数据 挖掘 技术 的 产生 与 发 展 (1 学 时 ) 

主要 介绍 清楚 数据 挖掘 技术 的 商业 需求 和 技术 产生 的 背景 。 

1.2 数据 挖 据 研究 的 发 展 趋势 (0.5 或 1 学 时 ) 

从 技术 发 展 角 度 阑 述 清 数据 挖掘 技术 在 研究 和 应 用 上 将 来 可 能 的 重点 工作 。 

1.3 数据 挖掘 概念 (1 或 1.5 学时) 

从 不 同 角度 解释 清楚 数据 挖掘 的 技术 含义 。 

1.4 数据 挖掘 技术 的 分 类 问题 (0. 5 学 时 ) 

介绍 清楚 不 同 的 分 类 方法 及 其 指导 意义 。 

1.5 数据 挖掘 常用 的 知识 表示 模式 与 方法 (1.5 或 2 学 时 ) 

从 宏观 上 介绍 清楚 数据 挖掘 的 知识 表示 模式 与 方法 ,不 必 追 求 细节 ,以 后 章节 再 展 
开讲 。 

1.6 不 同 数据 存储 形式 下 的 数据 挖掘 问题 (1 或 1.5 学 时 ) 

从 宏观 上 介绍 清楚 不 同 数据 存储 形式 下 的 数据 挖掘 可 能 面 对 的 问题 与 对 策 , 不 必 追 求 
细节 ,以 后 章节 再 展开 讲 。 

1.7 粗糙 集 方法 及 其 在 数据 挖掘 中 的 应 用 (可 选 或 1 学 时 ) 

主要 介绍 清楚 粗糙 集 的 相关 概念 以 及 和 数据 挖掘 技术 的 关系 。 

1.8 数据 挖掘 的 应 用 分 析 (0.5 或 1 学 时 ) 

主要 通过 实例 介绍 清楚 数据 挖掘 技术 的 应 用 价值 ,以 激发 学 生 的 学 习 积极 性 。 
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第 2 章 知识 发 现 过 程 与 应 用 结构 


本 章 总 学 时 估计 在 5 一 9 学 时 ,教师 可 根据 讲授 的 对 象 和 总 学 时 计划 进行 安排 。 

2.1 知识 发 现 的 基本 过 程 (1 一 1.5 学 时 ) 

主要 是 系统 化 地 介绍 清楚 知识 发 现 的 基本 过 程 和 主要 阶段 。 对 各 阶段 的 功能 要 给 出 明 
确 的 解释 。 

2.2 数据 库 中 的 知识 发 现 处理 过 程 模 型 (1.5 一 2 学 时 ) 

重点 讲述 阶梯 处 理 过 程 模型 .螺旋 处 理 模 型 。 对 以 用 户 为 中 心 的 处 理 模 型 .联机 KDD 
模型 从 用 户 交 互 角度 阐述 它们 的 必要 性 和 基本 思想 。 支 持 多 数据 源 多 知识 模式 的 KDD 处 
理 模 型 可 以 根据 情况 选 讲 。 

2.3 知识 发 现 软件 或 工具 的 发 展 (0. 5 一 1.5 学 时 ) 

重点 讲述 清楚 知识 发 现 软件 或 工具 发 展 的 3 个 主要 阶段 和 含义 。 对 教材 中 给 出 的 
KDD 系统 可 以 根据 情况 选 讲 。 

2.4 知识 发 现 项 目的 过 程 化 管理 (0 一 1 学 时 ) 

可 以 根据 情况 选 讲 。 介 绍 时 应 该 强调 知识 发 现 的 过 程 管理 的 重要 性 和 必要 性 。 

2.5 数据 挖掘 语言 介绍 (2 一 3 学 时 ) 

重点 介绍 清楚 数据 挖掘 语言 的 种 类 和 思想 。 对 数据 挖掘 查询 语言 机 器 DMQL 要 讲解 
清楚 它 的 具体 技术 ,已 给 学 生 一 个 较 完整 地 概念 。 对 其 他 两 类 语言 可 以 情况 有 重点 地 介绍 。 
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第 3 章 ”关联 规则 挖掘 理论 和 算法 


本 章 总 学 时 估计 在 9 一 28 学 时 ,对 于 研究 生 教学 来 讲 , 建 议 安排 15 学 时 以 上 。 教 师 可 
根据 讲授 的 对 象 和 总 学 时 计划 进行 安排 。 

3.1 基本 概念 与 解决 方法 (1 学 时 ) 

重点 介绍 清楚 事务 数据 库 、 项 目 集 、 支 持 度 ,频繁 项 目 集 、 可 信和 度 、 关 联 规则 等 概念 。 对 
关联 规则 挖掘 的 两 个 主要 阶段 的 功能 要 阐述 清楚 。 

3.2 经 典 的 关联 规则 挖掘 算法 分 析 (3 学 时 ) 

重点 讲解 项 目 集 空间 理论 .Apriori 算法 。 对 Apriori 算法 和 对 应 的 关联 规则 生成 算法 ， 
要 通过 实例 让 学 生 掌握 它 解决 问题 的 具体 步骤 。 

3.3 Apriori 算法 的 性 能 瓶颈 问题 (1 学 时 ) 

重点 讲述 Apriori 算法 的 两 个 主要 性 能 瓶颈 。 

3.4 Apriori 的 改进 算法 (2 一 3 学 时 ) 

对 3 个 改进 算法 的 提出 背景 .解决 的 问题 等 要 加 以 介绍 。 重 点 讲解 它们 的 算法 的 基本 
思想 。 假 如 学 时 充裕 ,可 以 增加 实例 来 说 明 上 述 问 题 。 

3.5 对 项 目 集 空间 理论 的 发 展 (2 一 4 学 时 ) 

重点 介绍 清楚 这 种 发 展 的 必要 性 ,由 此 讲解 清楚 Close 和 PF-Tree 算法 的 基本 思想 。 
假如 学 时 充裕 或 者 学 生 基 础 好 ,可 以 通过 增加 Close 和 PF-Tree 算法 的 运行 实例 来 说 明 上 
述 问题 。 

3.6 项 目 序列 集 格 空间 和 它 的 操作 (0 一 2 学 时 ) 

这 部 分 内 容 较 难 ,教师 可 以 根据 情况 选 讲 。 

3.7 基于 项 目 序列 集 操 作 的 关联 规则 挖掘 算法 (0 一 2 学 时 ) 

这 部 分 属于 选择 内 容 ,教师 可 以 根据 情况 选 讲 (假如 讲解 的 话 ,必须 提前 讲解 3.6 节 ) 。 

3.8 改善 关联 规则 控 掘 质量 问题 (0 一 1 学 时 ) 

这 部 分 属于 选择 内 容 ,教师 可 以 根据 情况 选 讲 。 

3.9 约束 数据 挖掘 问题 C0 一 2 学 时 ) 

这 部 分 属于 选择 内 容 ,教师 可 以 根据 情况 选 讲 。 

3.10 时 态 约束 关联 规则 挖掘 (0 一 2 学 时 ) 

这 部 分 属于 选择 内 容 ,教师 可 以 根据 情况 选 讲 (假如 讲解 的 话 ,必须 提前 讲解 3. 6 节 和 
3.7 T) 

3.11 关联 规则 挖掘 中 的 一 些 更 深入 的 问题 (0 一 3 学 时 ) 

这 部 分 属于 选择 内 容 ,教师 可 以 根据 情况 选 讲 ( 假 如 讲解 的 话 , 建 议 提前 讲解 3.9 节 )。 
讲解 中 要 注意 通俗 易 懂 ,有 实例 说 明 。 

3.12 数量 关联 规则 挖掘 方法 (0 一 4 学 时 ) 

这 部 分 属于 选择 内 容 ,教师 可 以 根据 情况 选 讲 。 
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第 4 章 分 类 方法 


本 章 总 学 时 估计 在 7 一 20 学 时 ,对 于 研究 生 教 学 来 讲 , 建 议 安排 15 学 时 以 上 。 教 师 可 
根据 讲授 的 对 象 和 总 学 时 计划 进行 安排 。 

4.1 分 类 的 基本 概念 与 步骤 (1 学 时 ) 

重点 介绍 清楚 分 类 的 概念 ,对 数据 分 类 的 两 个 步骤 要 阐述 清楚 。 

4.2 基于 距离 的 分 类 算法 (1 一 2 学 时 ) 

重点 讲述 基于 距离 的 分 类 算法 的 基本 思路 ,教师 可 以 根据 情况 选 讲 kNN 算法 。 假 如 学 
时 充裕 ,可 以 增加 实例 来 说 明 上 述 问题 。 

4.3 决策 树 分 类 方法 (3 一 6 学 时 ) 

重点 介绍 清楚 决策 树 分 类 方法 的 两 个 基本 步骤 ,由 此 讲解 清楚 ID3 算法 的 基本 思想 。 
教师 可 以 根据 情况 选 讲 C4. 5 算法 (假如 讲解 的 话 , 建 议 提前 讲解 ID3 算法 )。 假 如 学 时 充 
裕 或 者 学 生 基 础 好 ,可 以 通过 增加 ID3 算法 和 C4. 5 算法 的 运行 实例 来 说 明 上 述 问题 。 

4.4 贝 叶 斯 分 类 (2 一 4 学 时 ) 

重点 讲解 清楚 贝 叶 斯 定理 以 及 贝 叶 斯 分 类 的 工作 过 程 ,假如 学 时 充裕 或 者 学 生 基 础 好 ， 
可 以 通过 增加 贝 叶 斯 分 类 的 运行 实例 来 说 明 上 述 问 题 。EM 算法 属于 选 讲 内 容 。 

4.5 规则 归纳 (0 一 6 学 时 ) 

这 部 分 属于 选择 内 容 ,教师 可 以 根据 情况 选 讲 。 

4.6 与 分 类 有 关 的 其 他 问题 (0 一 1 学 时 ) 

这 部 分 属于 选择 内 容 ,教师 可 以 根据 情况 选 讲 。 
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第 5 章 聚 类 方法 


本 章 总 学 时 估计 在 6 一 12 学 时 ,对 于 研究 生 教 学 来 讲 , 建 议 安排 6 学 时 以 上 。 教 师 可 根 
据 讲授 的 对 象 和 总 学 时 计划 进行 安排 。 

5.1 概述 (1 一 2 学 时 ) 

对 聚 类 方法 在 数据 挖掘 中 的 地 位 和 典型 的 应 用 要 阐述 清楚 ,重点 介绍 清楚 聚 类 的 概念 、 
聚 类 的 基本 分 类 、 距 离 与 相似 性 度量 方法 。 

5.2 划分 聚 类 方法 (1 一 3 学 时 ) 

重点 介绍 清楚 划分 聚 类 的 主要 思想 ,由 此 讲解 清楚 人 平均 算法 的 基本 思想 。 教 师 可 以 
根据 情况 选 讲 PAM 算法 。 

5.3 层次 聚 类 方法 (2 一 3 学 时 ) 

重点 介绍 清楚 层次 聚 类 的 主要 思想 ,由 此 讲解 清楚 AGENS 算法 和 DIANA 算法 。 教 
师 可 以 根据 情况 选 讲 其 他 层次 聚 类 方法 。 

5.4 密度 聚 类 方法 (2 学 时 ) 

重点 介绍 清楚 密度 聚 类 的 主要 思想 ,由 此 讲解 清楚 DBSCAN 算法 。 

5.5 其 他 聚 类 方法 (0 一 2 学 时 ) 

这 部 分 属于 选择 内 容 ,教师 可 以 根据 情况 选 讲 。 
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第 6 章 时 间 序 列 和 序列 模式 挖掘 


本 章 总 学 时 估计 在 5 一 16 学 时 ,对 于 研究 生 教 学 来 讲 , 建 议 安排 5 学 时 以 上 。 教 师 可 根 
据 讲授 的 对 象 和 总 学 时 计划 进行 安排 。 

6.1 时 间 序 列 及 其 应 用 (1 学 时 ) 

主要 介绍 时 间 序 列 的 概念 和 它 的 应 用 。 

6.2 时间 序 列 预测 的 常用 方法 (1 学 时 ) 

重点 介绍 确定 性 时 间 序 列 预 测 方法 和 随机 时 间 序 列 预测 方法 。 

6.3 基于 ARMA 模型 的 序列 匹配 方法 (0 一 2 学 时 ) 

这 部 分 属于 选择 内 容 ,教师 可 以 根据 情况 选 讲 。 

6.4 基于 离散 傅 里 叶 变换 的 时 间 序 列 相 似 性 查找 (0 一 2 学 时 ) 

这 部 分 属于 选择 内 容 ,教师 可 以 根据 情况 选 讲 。 

6.5 基于 规范 变换 的 查找 方法 (0 一 2 学 时 ) 

这 部 分 属于 选择 内 容 ,教师 可 以 根据 情况 选 讲 。 

6.6 序列 挖掘 (1 一 2 学 时 ) 

重点 介绍 序列 挖掘 的 基本 改变 ,数据 源 形式 和 序列 模式 挖掘 的 一 般 步骤。 

6.7 AprioriAll 算法 (1 一 2 学 时 ) 

重点 讲解 清楚 AprioriAll 算法 的 基本 思想 ,假如 学 时 充裕 或 者 学 生 基础 好 ,可 以 通过 运 
行 实例 来 说 明 上 述 算 法 。 

6.8 AprioriSome 算法 (1 一 2 学 时 ) 

重点 讲解 清楚 AprioriSome 算法 的 基本 思想 ,假如 学 时 充裕 或 者 学 生 基础 好 ,可 以 通过 
运行 实例 来 说 明 上 述 算法 。 

6.9 GSP 算法 (0 一 2 学 时 ) 

可 以 根据 情况 选 讲 GSP 算法 。 
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第 7 章 Web 挖掘 技术 


本 章 总 学 时 估计 在 6 一 13 学 时 ,对 于 研究 生 教 学 来 讲 , 建 议 安 排 6 学 时 以 上 。 教 师 可 根 
据 讲授 的 对 象 和 总 学 时 计划 进行 安排 。 

7.1 Web 挖掘 的 意义 (1 学 时 ) 

主要 介绍 Web 挖掘 的 意义 和 它 的 应 用 。 

7.2 Web 挖掘 的 分 类 (1 学 时 ) 

重点 介绍 Web PAI H. Web 访问 信息 挖掘 、Web 结构 挖掘 。 

7.3 Web 挖掘 的 含义 (1 学 时 ) 

重点 介绍 Web 挖掘 的 含义 ,重点 区 别 Web 挖掘 与 信息 检索 、Web 挖掘 与 信息 抽取 。 

7.4 Web 挖掘 的 数据 来 源 (1 学 时 ) 

结合 Web 挖掘 应 用 场景 ,介绍 Web 挖掘 数据 来 源 。 

7.5 Web 内 容 控 气 方 法 (1 一 2 学 时 ) 

重点 介绍 Web 内 容 挖掘 的 概念 .主要 技术 和 预 处 理 。 

7.6 Web 访问 信息 挖掘 方法 (1 一 5 学 时 ) 

重点 介绍 Web 访问 信息 挖掘 的 特点 和 意义 , Web 访问 信息 挖掘 的 数据 源 以 及 预 处 理 ， 
Web 访问 信息 挖掘 的 常用 技术 和 要 素 组 成 。 假 如 学 时 充裕 或 者 学 生 基 础 好 ,可 以 对 Web 
访问 信息 挖掘 的 应 用 进行 介绍 。 

7.7 Web 结构 挖掘 方法 (0 一 2 学 时 ) 

可 以 根据 情况 选 讲 Web 结构 挖掘 方法 。 
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第 8 音 空间 挖掘 


本 章 总 学 时 估计 在 7 一 12 学 时 ,对 于 研究 生 教 学 来 讲 , 建 议 安 排 7 学 时 以 上 。 教 师 可 根 
据 讲授 的 对 象 和 总 学 时 计划 进行 安排 。 

8.1 引言 (0.5 学 时 ) 

主要 介绍 空间 数据 和 空间 数据 挖掘 的 一 般 性 概念 和 应 用 。 

8.2 空间 数据 概要 (1.5 一 2 学 时 ) 

讲解 清楚 空间 数据 的 特征 和 查询 问题 ;空间 数据 的 主要 数据 结构 等 。 

8.3 空间 数据 挖掘 基础 (0. 5 学 时 ) 

简要 介绍 空间 挖掘 需要 的 基础 知识 。 

8.4 空间 统计 学 (0 一 0.5 学 时 ) 

假如 需要 ,简要 介绍 。 

8.5 泛 化 与 特 化 (1 一 2 学 时 ) 

讲解 清楚 泛 化 与 特 化 的 概念 ,以 及 对 应 的 算法 。 

8.6 空间 规则 (1 学 时 ) 

讲解 清楚 空间 规则 描述 空间 实体 的 结构 及 它们 之 间 关 系 的 方法 、 类 型 以 及 对 应 的 算法 。 

8.7 空间 分 类 算法 (0.5 一 1 学 时 ) 

讲解 清楚 空间 分 类 方法 以 及 对 应 的 算法 。 

8.8 空间 聚 类 算法 (1 一 1.5 学 时 ) 

讲解 清楚 空间 聚 类 方法 ,选择 性 介绍 对 应 的 算法 。 

8.9 ”空间 挖掘 的 其 他 问题 (0~~0.5 学 时 ) 

简单 地 介绍 空间 挖掘 对 应 在 线 分 析 、 图 像 等 多 媒体 信息 挖掘 、 可 视 化 等 问题 及 常见 的 解 
决 思路 。 

8.10 空间 数据 挖掘 原型 系统 介绍 (0 一 0. 5 学 时 ) 

假如 需要 ,介绍 GeoMiner。 

8.11 空间 数据 挖掘 的 研究 现状 (0.5 学 时 ) 

归纳 性 介绍 。 

8.12 空间 数据 挖掘 的 研究 与 发 展 方向 (0.5 学 时 ) 

归纳 性 介绍 。 

8.13 空间 数据 挖掘 与 相关 学 科 的 关系 (0 一 0.5 学 时 ) 

假如 需要 ,简单 介绍 。 

8.14 数字 地 球 (0 一 0.5 学 时 ) 

假如 需要 ,简单 介绍 。 
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48 学 时 的 教学 大 纲 (本科 生 ) 


【课程 名 称 】 

数据 挖掘 技术 (Technology of Data Mining) 。 

【总 学 时 】 

48 学 时 。 

【授课 对 和 象 】 

计算 机 科学 与 技术 专业 本 科 生 。 

【 先 修 课 程 】 

数据 库 原理 等 。 

【课程 目的 与 地 位 】 

数据 挖掘 技术 经 过 十 几 年 的 发 展 ,已 经 取得 一 批 重 要 成 果 , 特 别 是 在 基本 概念 .基本 原 
H .基本 算法 等 方面 发 展 的 越 来 越 清晰 。 因 此 ,现在 开设 此 课 具 备 基本 的 技术 条 件 。 本 课程 
以 介绍 基本 概念 和 基本 算法 为 主 ,以 前 沿 问题 的 讨论 与 探索 为 辅 ,其 目的 是 为 学 生 将 来 研究 
和 学 习 提 供 知 识 储 备 。 

数据 处 理 技术 是 计算 机 相关 专业 培养 而 设置 的 重点 课程 群 之 一 。 这 个 课程 群 的 基础 性 
课程 是 数据 库 原理 ,解决 数据 处 理 中 的 数据 表示 、 关 系数 据 库 的 管理 以 及 查询 等 基本 问题 。 
数据 挖掘 作为 高 级 数据 处 理 和 分 析 技 术 ,是 这 个 课程 群 的 高 级 课程 ,其 目的 是 通过 本 课程 学 
习 让 学 生 了 解 信息 处 理 技术 的 发 展 方向 以 及 数据 挖掘 技术 本 身 的 概念 、 原 理 和 方法 。 

【教材 】 

毛 国 君 等 . 数据 挖掘 原理 与 算法 . 北京 : 清华 大 学 出 版 社 ,2007. 

【主要 参考 书目 】 

Jiawei Han, Micheline Kambr. Data Mining: Concepts and Techniques. 影印 版 . 北京 : 
高 等 教育 出 版 社 ,2001. 

【教学 内 容 、 基 本 要 求 及 学 时 分 配 】 

1. 第 1 童 ,绪论 (6 学 时 )。 

本 章 作 为 绪论 ,其 目的 是 让 学 生 对 数据 挖掘 技术 有 一 个 总 体 的 认识 。 因 此 ,主要 内 容 是 
对 数据 挖掘 技术 的 概念 、 产 生 背 景 技 术 、 发 展 趋势 以 及 应 用 等 进行 提炼 和 概括 。 

学 时 的 分 配 为 : 

。 数据 挖掘 技术 的 产生 与 发 展 趋 势 (2 学 时 ) 。 

。 数据 挖掘 技术 的 分 类 与 知识 表示 模式 (2 学 时 )。 

。 不 同 数据 存储 形式 下 的 数据 挖掘 问题 与 应 用 等 介绍 (2 学 时 )。 

2. 第 2 章 , 知 识 发 现 过 程 与 应 用 结构 (5 学 时 ) 。 

本 章 对 KDD 过 程 及 其 应 用 模型 结构 进行 曾 述 ,其 目的 是 从 系统 应 用 角度 给 读者 一 个 
关于 KDD 设计 和 实现 的 技术 概括 。 

学 时 的 分 配 为 : 

。 知识 发 现 的 基本 过 程 (1 学 时 ) 。 

。 主要 的 知识 发 现 处 理 过 程 模型 介绍 (2 学 时 ) 。 

。 知识 发 现 软件 与 挖掘 语言 介绍 等 (2 学 时 ) 。 
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3. 第 3 章 ,关联 规则 挖掘 理论 和 算法 (10 学 时 ) 。 

本 章 对 关联 规则 挖掘 中 的 概念 、 方 法 、 算 法 进行 全 面 的 分 析 和 论述 。 由 于 关联 规则 挖掘 
是 数据 挖掘 技术 中 研究 最 早 成 果 最 多 、 相 对 比较 成 熟 的 分 支 , 因 此 本 章 重点 在 于 一 些 经 典 
理论 和 算法 、 热 点 问题 的 介绍 。 

学 时 的 分 配 为 ， 

。 基本 概念 与 解决 方法 (1 学 时 ) 。 
Apriori 算法 (2 学 时 ) 。 
。 Apriori 的 改进 算法 (2 学 时 ) 。 
Close 和 FP-tree 算法 (2 学 时 ) 。 
数量 关联 规则 挖掘 方法 介绍 (2 学 时 ) 。 

。 其 他 的 一 些 高 级 技术 介绍 (1 学 时 ) 。 

4. 第 4 章 , 分 类 方法 (10 学 时 ) 

分 类 在 数据 挖掘 中 是 一 项 非常 重要 的 任务 ,本章 对 分 类 的 基本 概念 与 步 又、 经典 的 分 类 
方法 以 及 与 分 类 有 关 的 问题 进行 了 阐述 。 

学 时 的 分 配 为 : 
分 类 的 基本 概念 与 步骤 (1 学 时 )。 

。 基于 距离 的 分 类 算法 (1 学 时 )。 

。 决策 树 分 类 方法 (2 学 时 ) 。 

。 贝 叶 斯 分 类 (2 学 时 )。 

。 规则 归纳 有 选择 性 的 介绍 (2 学 时 ) 。 

。 与 分 类 有 关 的 其 他 问题 介绍 (2 学 时 ) 。 

5. 第 5 章 , 聚 类 方法 (9 学 时 ) 。 

聚 类 是 数据 挖掘 技术 中 一 个 重要 内 容 , 内 容 很 多 ,因此 本 章 主要 从 基本 方法 、 按 划分 聚 
类 方法 、 层 次 聚 类 方法 和 密度 聚 类 方法 等 进行 重点 讲解 。 

学 时 的 分 配 为 : 

© 聚 类 分 析 的 概念 、 基 本 方法 归纳 (2 学 时 )。 

。 基于 划分 的 聚 类 方法 与 算法 (2 学 时 ) 。 

。 基于 层次 的 聚 类 方法 与 算法 (2 学 时 ) 。 

。 基于 密度 的 聚 类 方法 与 算法 (2 学 时 ) 。 

。 其 他 聚 类 方法 介绍 (1 学 时 ) 。 

6. 第 6 章 , 时 间 序列 和 序列 模式 挖掘 (4 学 时 ,可 选 ) 

第 6 章 和 第 8 章 的 内 容 相 对 较 新 ,可 以 根据 需要 . 作 如 下 选择 : 

(1) 只 选择 其 中 一 章 , 使 该 章 占 用 4 学 时 。 

(2) 对 相应 的 基本 内 容 做 简单 介绍 ,每 章 各 占 2 学 时 。 

本 章 学 时 的 分 配 为 : 

。 时 间 序 列 预测 的 常用 方法 介绍 (1 学 时 )。 

。 序列 挖掘 的 基本 方法 介绍 (1 学 时 ) 。 

。 时 间 序 列 预测 的 典型 算法 介绍 (1 学 时 ) 。 

。 序列 挖掘 的 典型 算法 介绍 (1 学 时 ) 。 
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7. 第 7 章 Web 挖掘 技术 (4 学 时 ) 

由 于 Web 挖掘 是 数据 挖掘 领域 靳 新 的 研究 分 支 ,所 以 许多 方法 具有 探索 性 。 因 此 本 章 
重点 是 来 阐述 Web 挖掘 所 要 解决 的 主要 问题 和 意义 ,并 选择 了 一 些 研究 比较 集中 和 相对 比 
较 成 熟 或 被 认可 的 技术 进行 论述 。 

学 时 的 分 配 为 : 

。 Web 挖掘 的 意义 、 含 义 、 应 用 、 主 要 方法 归纳 (2 学 时 ) 。 

。 Web 访问 信息 挖 据 方法 与 算法 介绍 (1 学 时 )。 

。 其 他 Web 挖掘 方法 与 算法 介绍 (1 学 时 )。 

8. 第 8 章 , 空 间 挖 据 (4 学 时 ,可 选 ) 

同上 所 述 , 第 6 章 和 第 8 章 的 内 容 相对 较 新 ,可 以 根据 需要 , 作 如 下 选择 : 

(1) 只 选择 其 中 一 章 ,使 该 章 占用 4 学 时 。 

(2) 对 相应 的 基本 内 容 做 简单 介绍 ,每 章 各 占 2 学 时 。 

本 章 学 时 的 分 配 为 : 

。 空间 数据 挖掘 特点 、 含 义 与 基础 方法 介绍 (2 学 时 ) 

。 空间 数据 库 挖掘 的 典型 算法 介绍 (2 学 时 ) 
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32 学 时 的 教学 大 纲 (本科 生 ) 


【课程 名 称 】 

数据 挖掘 技术 (Technology of Data Mining). 

【总 学 时 】 

32 学 时 。 

【授课 对 和 象 】 

计算 机 科学 与 技术 专业 本 科 生 。 

【 先 修 课 程 】 

数据 库 原 理 等 。 

【课程 目的 与 地 位 】 

数据 挖掘 技术 经 过 十 几 年 的 发 展 ,已 经 取得 一 批 重要 成 果 , 特 别 是 在 基本 概念 ,基本 原 
理 、 基 本 算法 等 方面 发 展 的 越 来 越 清晰 。 因 此 ,现在 开设 此 课 具 备 基本 的 技术 条 件 。 本 课程 
主要 介绍 基本 概念 、 基 本 方法 ,选择 一 些 典 型 的 数据 挖掘 算法 进行 讲解 ,其 目的 是 为 学 生 将 
来 从 事 相关 工作 提供 知识 储备 。 

其 他 信息 参考 上 面 的 48 学 时 大 纲 。 


【教材 】 
毛 国 君 等 . 数据 挖掘 原理 与 算法 . 北京 : 清华 大 学 出 版 社 ,2007. 
【主要 参考 书目 】 


Jiawei Han, Micheline Kambr. Data Mining: Concepts and Techniques. 影印 版 . 北京 : 
高 等 教育 出 版 社 ,2001. 

【教学 内 容 、 基 本 要 求 及 学 时 分 配 】 

1. 第 1 童 ,绪论 (6 学 时 ) 

本 章 作为 绪论 ,其 目的 是 让 学 生 对 数据 挖掘 技术 有 一 个 总 体 的 认识 。 因 此 ,主要 内 容 是 
对 数据 挖掘 技术 的 概念 .产生 背景 技术 ,发展 趋势 以 及 应 用 等 进行 提炼 和 概括 。 

学 时 的 分 配 为 : 

。 数据 挖掘 技术 的 产生 与 发 展 趋 势 (2 学 时 ) 。 

。 数据 挖掘 技术 的 分 类 与 知识 表示 模式 (2 学 时 )。 

。 不 同 数据 存储 形式 下 的 数据 挖掘 问题 与 应 用 等 介绍 (2 学 时 )。 

2. 第 2 章 , 知 识 发 现 过 程 与 应 用 结构 (5 学 时 ) 

本 章 对 KDD 过 程 及 其 应 用 模型 结构 进行 曾 述 .其 目的 是 从 系统 应 用 角度 给 读者 一 个 
关于 KDD 设计 和 实现 的 技术 概括 。 

学 时 的 分 配 为 : 

。 知识 发 现 的 基本 过 程 (1 学 时 ) 。 

。 主要 的 知识 发 现 处理 过 程 模型 介绍 (2 学 时 ) 。 

。 知识 发 现 软件 与 挖掘 语言 介绍 等 (2 学 时 ) 。 

3. 第 3 章 , 关 联 规则 挖掘 理论 和 算法 (9 学 时 ) 

本 章 对 关联 规则 挖掘 中 的 概念 .方法 .算法 进行 全 面 的 分 析 和 论述 。 由 于 关联 规则 挖掘 


67 
第 三 部 分 Ra 


是 数据 挖掘 技术 中 研究 最 早 、 成 果 最 多 、 相 对 比较 成 熟 的 分 支 , 因 此 本 章 重点 在 于 一 些 经 典 
理论 和 算法 、 热 点 问题 的 介绍 。 

学 时 的 分 配 为 : 

。 基本 概念 与 解决 方法 (2 学 时 )。 

。 Apriori 算法 (2 学 时 ) 。 

。 Apriori 的 改进 算法 (2 学 时 ) 。 

。 Close 和 FP-tree 算法 (2 学 时 ) 。 

。 其 他 的 一 些 高 级 技术 介绍 (1 学 时 ) 。 

4. 第 4 章 , 分 类 方法 (6 学 时 ) 

分 类 在 数据 挖掘 中 是 一 项 非常 重要 的 任务 ,本 章 对 分 类 的 基本 概念 与 步 又、 经 典 的 分 类 
方法 以 及 与 分 类 有 关 的 问题 进行 了 阐述 。 

学 时 的 分 配 为 : 

。 分 类 的 基本 概念 与 步骤 (1 学 时 )。 

。 基于 距离 的 分 类 算法 (1 学 时 ) 。 

。 决策 树 分 类 方法 (2 学 时 ) 。 

。 其 他 分 类 方法 介绍 (2 学 时 ) 。 

5. 第 5 章 , 聚 类 方法 (6 学 时 ) 

聚 类 是 数据 挖掘 技术 中 一 个 重要 内 容 , 内 容 很 多 ,因此 本 章 主要 从 基本 方法 、 按 划分 聚 
类 方法 .层次 聚 类 方法 和 密度 聚 类 方法 等 进行 重点 讲解 。 

学 时 的 分 配 为 : 

© 聚 类 分 析 的 概念 、 基 本 方法 归纳 (2 学 时 ) 。 

。 基于 划分 的 聚 类 方法 与 算法 (2 学 时 )。 

。 其 他 聚 类 方法 介绍 (2 学 时 ) 。 
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48 学 时 的 教学 大 纲 (研究 生 ) 


【课程 名 称 】 

数据 挖掘 技术 (Technology of Data Mining)。 

【总 学 时 】 

48 学 时 。 

【授课 对 象 】 

计算 机 科学 与 技术 专业 研究 生 。 

【 先 修 课 程 】 

数据 库 原理 等 。 

【课程 目的 与 地 位 】 

数据 挖掘 技术 经 过 十 几 年 的 发 展 .已 经 取得 一 批 重 要 成 果 , 特 别 是 在 基本 概念 、 基 本 原 
理 、 基 本 算法 等 方面 发 展 的 越 来 越 清晰 。 近 年 来 ,数据 挖掘 及 其 相关 技术 已 经 成 为 研究 生 进行 
科学 研究 的 主要 方向 之 一 ,而 且 数据 挖掘 作为 方法 可 以 被 许多 其 他 研究 领域 来 使 用 。 因 此 ,在 
研究 生 中 开设 该 课程 不 论 是 对 于 学 生 在 校 研究 和 将 来 工作 都 具有 重要 的 理论 和 应 用 价值 。 数 
据 处 理 技术 的 智能 化 将 成 为 将 来 计算 机 应 用 的 核心 技术 之 一 ,而 传统 的 数据 技术 只 能 解决 
数据 查询 等 基本 问题 ,因此 利用 在 校 的 宝贵 时 间 ,让 研究 生 对 数据 挖掘 理论 与 技术 有 一 个 全 
面 而 正确 地 认识 ,是 一 件 非常 有 意义 的 工作 。 


【教材 】 
毛 国君 等 .数据 挖掘 原理 与 算法 . 北京 : 清华 大 学 出 版 社 ,2007. 
【主要 参考 书目 】 


Jiawei Han, Micheline Kambr. Data Mining: Concepts and Techniques. 影印 版 . 北京 : 
高 等 教育 出 版 社 ,2001. 

【教学 内 容 、 基 本 要 求 及 学 时 分 配 】 

1. 第 1 章 , 绪 论 (5 学 时 ) 

本 章 作 为 绪论 ,其 目的 是 让 学 生 对 数据 挖掘 技术 有 一 个 总 体 的 认识 。 作 为 研究 生 教学 ， 
应 该 力求 从 理论 框架 和 技术 发 展 轨迹 的 视点 ,提出 问题 ,给 出 正确 而 全 面 地 关于 数据 挖掘 技 
术 的 概念 .产生 背景 技术 发展 趋 势 以 及 应 用 等 方面 的 概括 。 

学 时 的 分 配 为 : 

。 数据 挖掘 技术 的 产生 与 发 展 、 概 念 (2 学 时 ) 。 

。 数据 挖掘 技术 的 分 类 与 知识 表示 模式 (1 学 时 )。 

。 不 同 数据 存储 形式 下 的 数据 挖掘 问题 (1 学 时 ) 。 

。 粗糙 集 方法 及 其 在 数据 挖掘 中 的 应 用 (1 学 时 ) 。 

2. 第 2 章 ,知识 发 现 过 程 与 应 用 结构 (4 学 时 ) 

本 章 立足 于 从 KDD 系统 的 技术 构架 及 其 应 用 模型 角度 阑 述 问 题 , 其 目的 是 为 研究 生 
将 来 进行 系统 研发 提供 入 门 性 的 技术 指导 。 

学 时 的 分 配 为 : 

。 知识 发 现 的 基本 过 程 (1 学 时 ) 。 
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。 主要 的 知识 发 现 处 理 过 程 模型 介绍 (2 学 时 ) 。 
。 知识 发 现 软件 与 挖掘 语言 介绍 (1 学 时 ) 。 
3. 第 3 章 , 关 联 规则 挖掘 理论 和 算法 (8 学 时 ) 
本 章 对 关联 规则 挖掘 中 的 概念 .方法 、 算 法 进行 全 面 的 分 析 和 论述 。 由 于 关联 规则 挖掘 
是 数据 挖掘 技术 中 研究 最 早 、 成 果 最 多 、 相 对 比较 成 熟 的 分 支 , 因 此 本 章 重点 在 于 一 些 经 典 
理论 和 算法 、 热 点 问题 的 介绍 .同时 对 于 研究 生来 讲 要 提出 一 些 开放 性 的 问题 进行 讨论 。 
学 时 的 分 配 为 : 
。 基本 概念 与 解决 方法 (1 学 时 )。 
e Apriori 算法 (1.5 学 时 )。 
。 Apriori 的 改进 算法 (1 学 时 )。 
。 Close 和 FP-tree 算法 (2 学 时 ) 。 
数量 关联 规则 挖掘 方法 介绍 (0.5 学 时 ) 。 
开放 性 问题 讨论 ,如 多 维 数据 的 挖掘 、 多 层次 概念 的 发 现 \ 约 束 数据 挖掘 等 (2 学 时 )。 
4. 第 4 章 , 分 类 方法 (8 学 时 ) 
分 类 在 数据 挖掘 中 是 一 项 非常 重要 的 任务 ,而 且 应 用 非常 广泛 。 应 该 除了 对 分 类 的 基 
本 概念 与 步骤 ,经典 的 分 类 方法 进行 介绍 外 ,要 对 它 的 一 些 最 新 发 展 有 个 讨论 。 
学 时 的 分 配 为 : 
。 分 类 的 基本 概念 与 步骤 (1 学 时 )。 
。 基于 距离 的 分 类 算法 (1 学 时 ) 。 
。 决策 树 分 类 方法 (1 学 时 ) 。 
贝 叶 斯 分 类 (1 学 时 )。 
规则 归纳 有 选择 性 的 介绍 (1 学 时 ) 。 
。 与 分 类 有 关 的 其 他 问题 介绍 (1 学 时 ) 。 
。 开放 性 问题 讨论 ,如 分 类 方法 的 性 能 评估 、 集 成 分 类 器 学 习 、 分 类 与 处 理 问题 等 
(2 学 时 ) 。 
5. 第 5 章 , 聚 类 方法 (8 学 时 ) 
聚 类 分 析 也 是 数据 挖掘 技术 中 一 个 重要 内 容 , 有 很 强 的 应 用 适应 性 。 因 此 除了 对 基本 
念 与 方法 进行 较 细致 的 讲解 外 ,要 重点 对 划分 聚 类 方法 、 层 次 聚 类 方法 和 密度 聚 类 方法 等 
进行 剖析 。 也 应 该 设置 一 些 开放 性 的 问题 进行 讨论 。 
学 时 的 分 配 为 : 
© 聚 类 分 析 的 概念 、 基 本 方法 归纳 (2 学 时 )。 
基于 划分 的 聚 类 方法 与 算法 (1 学 时 )。 
基于 层次 的 聚 类 方法 与 算法 (1 学 时 )。 
。 基于 密度 的 聚 类 方法 与 算法 (1 学 时 )。 
。 其 他 聚 类 方法 介绍 (1 学 时 ) 。 
。 开放 性 问题 讨论 .如 开放 性 问题 .如 聚 类 与 分 类 方法 的 区 别 、 模 糊 聚 类 问题 等 
(2 学 时 ) 。 
6. 第 6 章 , 时 间 序 列 和 序列 模式 挖掘 (4 学 时 ) 
本 章 主要 讲解 基本 概念 和 典型 算法 。 
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学 时 的 分 配 为 : 

。 时 间 序 列 预 测 的 常用 方法 介绍 (1 学 时 ) 。 

。 序列 挖掘 的 基本 方法 介绍 (1 学 时 ) 。 

。 时 间 序 列 预 测 的 典型 算法 介绍 (1 学 时 )。 

。 序列 挖掘 的 典型 算法 介绍 (1 学 时 ) 。 

7. 第 7 章 ,Web 挖掘 技术 (7 学 时 ) 

由 于 Web 挖掘 是 数据 挖掘 领域 席 新 的 研究 分 支 ,所 以 许多 方法 具有 探索 性 。 因 此 本 章 
重点 是 来 阐述 Web 挖掘 所 要 解决 的 主要 问题 和 意义 ,并 选择 了 一 些 研究 比较 集中 和 相对 比 
较 成 熟 或 被 认可 的 技术 进行 论述 。 教 师 也 应 该 根据 情况 选择 一 些 开 放 性 的 问题 进行 讨论 。 

学 时 的 分 配 为 : 

。 Web 挖掘 的 意义 、 含 义 、 应 用 、 主 要 方法 归纳 (2 学 时 )。 

。 典型 的 Web 访问 信息 挖掘 方法 与 算法 (1 学 时 )。 

。 典型 的 Web 结构 挖掘 方法 与 算法 (1 学 时 )。 

。 Web 内 容 挖掘 中 的 问题 与 方法 探讨 (1 学 时 ) 。 

。 开放 性 问题 讨论 ,如 开放 性 问题 ,如 无 结构 或 者 半 结 构 数据 的 挖掘 问题 .电子 商务 数 
据 以 及 个 性 化 网 页 推荐 等 应 用 性 问题 等 (2 学 时 ) 。 

8. 第 8 章 , 空 间 挖掘 (4 学 时 ) 

本 章 主 要 讲解 基本 概念 和 典型 算法 。 

学 时 的 分 配 为 : 

。 空间 数据 挖掘 特点 、 含 义 与 基础 方法 介绍 (2 学 时 ) 。 

。 空间 数据 库 挖掘 的 典型 算法 介绍 (2 学 时 ) 。 


样本 试卷 第 四 部 分 
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样本 试卷 1 OR BLE) 


— (20 分 ) 简 明 扼要 地 解释 下 列 概念 .并 且 给 出 它们 对 应 的 英文 表达 。 
. 数据 挖掘 。 
机 器 学 习 。 
人 工 智能 。 
数据 仓库 。 
二 、(20 分 )KDD 是 一 个 多 步骤 的 处 理 过 程 , 它 一 般 包含 哪些 基本 阶段 ? 简 述 各 阶段 的 
主要 功能 。 
三 、(20 分 ) 对 表 t1 给 出 的 一 个 事务 数据 库 , 跟 踪 Apriori 算法 生成 频繁 项 目 集 的 过 
程 , 其 中 最 小 支持 度 为 50%% 。 


ae wwe 


Rel 事物 数据 库 
TID Itemset TID Itemset 
1 A-B.C.D 3 A.B.C.E 
2 B,C.E 4 A,B,C,D 


W, (20 分 ) 图 t-1 是 使 用 ID3 算法 在 一 个 数据 集 上 生成 的 决策 树 , 它 用 来 帮助 银行 来 
决定 是 否 发 放 住房 贷款 。 根 据 该 图 回答 下 列 问题 : 

1. 数据 格式 至 少 包 含 哪些 属性 ? 定义 一 个 数据 表 来 满足 这 种 格式 要 求 。 

2. 写 出 该 树 对 应 的 分 类 规则 。 


图 t+1 第 四 题 对 应 的 决策 树 


五 、(20 分 ) 对 给 定 的 数据 data={a=(1.1), b=(2,1), c=(1,2), d=(2,2), e 
(4,3)，F 一 (5,3)，g 一 (4,4) ,一 (5,4)} ,实施 Ameans( 假 如 & 一 2, 开 始 的 中 心 点 是 ac 和 
c)。 在 计算 中 心 点 和 距离 时 参照 下 面 的 计算 方法 : 

(1) 中 心 点 采用 平均 值 ,如 (2,3) 和 (4,5) 的 中 心 点 应 该 是 (3,4)。 

(2) 距离 采用 欧 氏 距离 ,如 (2,3) 和 (4,5) 的 距离 是 V(2 一 4)? 十 (3 一 5)? 一 2。 
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样本 试卷 2( 研 究 生 ) 


一 、(20 分 ) 指 出 下 列 英文 单词 或 缩写 的 中 文 含义 ,并 简单 地 解释 它们 。 
. OLAP, 
. Information Retrieval, 
. Bayesian Classification, 


. Data Warehouse, 


1 
2 
3 
4 
5. Spatial mining. 
6. Vertical Solution of data mining. 
7. KUD, 
8. Association rule, 
9. Clustreing, 
10, Data Visualization 
二 、(15 分 ) 有 人 说 数据 库 、 统 计 学 和 人 工 智能 是 支撑 数据 挖掘 研究 的 三 个 主要 基础 学 
科 ,请 说 明 这 种 说 法 的 合理 性 和 局 限 性 。 
三 、(20 分 )Apriori 算法 是 最 早 的 数据 挖掘 典型 算法 ,针对 它 回答 下 列 问题 : 
1. 对 表 t-2 给 出 的 一 个 事务 数据 库 ,跟踪 Apriori 算法 的 生成 频繁 项 目 集 的 过 程 ,其 中 
最 小 支持 度 为 50%。 


表 t2 事物 数据 库 
TID Itemset TID Itemset 
1 A.B.C.D 4 A,B.D,E 
2 B,C,D,E 5 A;B,C,D 
3 A.B.C.F 


2. 说 明 Apriori 方法 存在 的 主要 问题 ,尝试 给 出 解决 这 些 问题 的 主要 途径 或 者 思想 。 
四 、(10 分 ) 简 述 ID3 算法 的 基本 思想 .主要 问题 和 改进 策略 。 
五 、(15 分 )k-means 算法 是 一 种 广泛 使 用 的 聚 类 算法 。 请 回答 下 列 问题 


1. 对 给 定 的 数据 data={a=(1,1), b=(2,1), c=(3,1), d=(1,3), e=(1,4); f 
(2.3), g=(3,2),h=(4,1)} ,实施 Ameans( 假 如 & 一 2. 假 设 开 始 的 中 心 点 是 wa 和 d)。 在 
计算 中 心 点 和 距离 时 参照 下 面 的 计算 方法 : 

(1) 中 心 点 采用 平均 值 ,如 (2,3) 和 (4,5) 的 中 心 点 应 该 是 (3,4)。 

(2) 距离 采用 欧 氏 距离 ,如 (2,3) 和 (4,5) 的 距离 是 V(2 一 人 )7 十 (3 一 5)? 二 2。 

2. 为 了 提高 算法 的 效率 和 适应 性 ,可 以 从 哪些 方面 进行 改进 ? 

六 、(20 分 ) 从 下 列 选择 一 个 数据 挖掘 的 研究 分 支 ,讨论 该 分 支 所 要 解决 的 主要 问题 、 
面 对 的 挑战 性 课题 ,给 出 解决 这 些 问 题 或 者 挑战 将 要 采取 的 技术 性 或 策略 性 的 设想 。 

可 选择 的 题目 有 : 

分 支 一 : Web 挖掘 。 

分 支 二 : 空间 挖掘 。 

分 支 三 : 多 维 数据 库 挖掘 。 

分 支 四 : 时 间 序 列 挖掘 。 
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样本 试卷 1( 本 科 生 ) 的 参考 答案 


一 、 BEER 

对 应 的 英文 术语 如 下 : 

1. Data Mining. 

2. Machine Learning. 

3. Database. 

4, Artificial Intelligence, 

5. Data Warehous 。 

二 、 BEER 

KDD 是 一 个 多 步骤 的 处 理 过 程 , 一 般 分 为 问题 定义 数据 抽 取 、 数 据 预 处 理 、 数 据 挖掘 
以 及 模式 评估 等 基本 阶段 。 

问题 定义 阶段 的 功能 : 确定 挖掘 目标 等 。 

数据 抽取 阶段 的 功能 : 选取 相应 的 源 数据 库 , 并 根据 要 求 从 数据 库 中 提取 相关 的 数据 。 

数据 预 处 理 阶 段 的 功能 : 对 前 一 阶段 抽取 的 数据 进行 再 加 工 , 检 查 数据 的 完整 性 及 数 
据 的 一 致 性 等 。 

数据 挖掘 阶段 的 功能 : 运用 选 定 的 数据 挖掘 算法 ,从 数据 中 提取 出 用 户 所 需要 的 知识 。 

知识 评估 阶段 的 功能 : 将 KDD 系统 发 现 的 知识 以 用 户 能 了 解 的 方式 呈现 ,并 且 根 据 需 
要 进行 知识 评价 。 如 果 发 现 知识 和 用 户 挖掘 目 标 不 一 致 , 则 重复 以 上 阶段 以 最 终 获 得 可 用 
的 知识 。 

=. BEER 

Ly ÆR: 生成 候选 集 并 通过 扫描 数据 库 得 到 它们 的 支持 数 ,C, = (CA, 3). (B.D, 
(C.4).(D.2). (E.2)}3 挑选 minsup_count 三 2 的 项 目 集 组 成 1- 频 繁 项 目 集 Li = 
(ABCDE). 

L: 生成 : h Li 生成 2- 候 选集 并 通过 扫描 数据 库 得 到 它们 的 支持 数 C: = (CAB. 3), 
(AC,3),(AD,2),(AE.1),(BC,4),(BD,2).(BE,2),(CD,2),(CE,2),(DE,0)}; 挑选 
minsup_count >2 的 项 目 集 组 成 2- 频 繁 项 目 集 L;= 二 {AB.AC.AD.BC.BD.,BE,CD.,CE}。 

Ls ÆR: 由 Ls 生成 3- 候 选集 并 通过 扫描 数据 库 得 到 它们 的 支持 数 Cs = {(ABC,3)， 
(ABD,2),(ACD,2),(BCD,2),(BCE,2)); 挑选 minsup_count>2 的 项 目 集 组 成 3- 频 繁 
项 目 集 Ls; 二 {ABC,ABD,ACD,BCD,BCE)}。 

Ly ÆR: 由 Ls 生成 4- 候 选集 并 通过 扫描 数据 库 得 到 它们 的 支持 数 C, = { (ABCD, 2)} 5 
挑选 minsup_count>2 的 项 目 集 组 成 4- 频 繁 项 目 集 L, 二 {ABCD)。 

于 是 所 有 的 频繁 项 目 集 为 {A,B,C,D,E,AB,AC,AD.BC,BD,BE,CD,CE,ABC, 
A4ABD,ACD,BCD,BCE,ABCD}。 另 外 很 容易 得 到 最 大 频繁 项 目 集 为 {ABCD,BCE)。 

四 、 参 考 答 案 

1. T=<income. age, rate. loan 二 ,其 中 income 代表 收入 , 实 型 数据 ; age 代表 年 龄 ， 
整 型 数据 ; rate 代表 信誉 ,是 值 域 为 {high,low} 的 布尔 型 数据 ; loan 是 决策 属性 , 取 值 为 yes 
表明 可 以 贷款 、 取 值 为 no 表明 不 能 贷款 。 

2. 使 用 上 面 的 符号 ,分 类 规则 可 以 写成 : 
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If (Cincome=5000) and (age 一 50) Then loan= yes; 

If (Cincome<5000) and (rate= 'high') and (age 一 50) Then loan= yes; 

If (Cincome=5000) and (age 三 50) Then loan= no; 

If (Cincome<5000) and (rate= ‘low') Then loan=no; 

If (income<5000) and (rate= 'high') and (age 三 50) Then loan=no, 

五 、 参 考 答 案 

第 一 次 迭代 : 选取 中 心 点 是 a 和 ,分别 找 到 离 a 和 c 最 近 的 对 象 ,并 产生 两 个 簇 {a, b, d}, 
dese, fs g,h}, 

对 于 产生 的 簇 分 别 计算 平均 值 ,得 到 平均 值 点 。 

对 于 {{a, by dh} ,平均 值 点 为 (5/3, 4/3); 

对 于 { cre, fe gh} ,平均 值 点 为 (19/5，16/5) 。 

第 二 次 迭代 : 通过 平均 值 调整 对 象 的 所 在 的 簇 ,重新 聚 类 ,即将 所 有 点 按 离 平 均值 
(5/3, 4/3)、(19/5,，16/5) 最 近 的 原则 重新 分 配 。 得 到 2 个 新 的 簇 : {a, bs cs d) A 
{e，/，g，h)。 重 新 计算 簇 平均 值 点 ,得 到 新 的 平均 值 点 为 (3/2,3/2)、(9/2, 7/2)。 

第 三 次 迭代 : 将 所 有 点 按 离 平 均值 (3/2,3/2)、(9/2, 7/2) 最 近 的 原则 重新 分 配 。 仍 然 
Hla, b, c, d} Mle, fo g, h} ,发 现 准 则 函数 收敛 ,程序 结束 。 
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样本 试卷 2( 研 究 生 ) 的 参考 答案 


一 、 参 考 答 案 

. 在 线 分 析 处 理 。 

. 信息 检索 。 

. 贝 叶 斯 分 类 。 

数据 仓库 。 

空间 挖掘 。 

. 数据 挖掘 的 纵向 解决 方案 。 
.数据库 中 的 知识 发 现 。 

. 关联 规则 。 

聚 类 。 

10. 数据 可 视 化 。 

上 面 术 语 的 解释 参考 教材 。 

二 、 参 考 答 案 

合理 的 回答 要 点 : 

A) 任何 技术 的 产生 总 是 有 它 的 技术 背景 的 ,数据 库 、 统 计 学 和 人 工 智 能 的 发 展 导致 数 
据 挖掘 的 技术 需求 ; 

(2) 数据 库 的 普及 性 应 用 ,改变 人 们 利用 存储 海量 数据 的 方式 ; 

(3) 统计 学 是 任何 数据 分 析 的 基础 ,数据 挖掘 系统 的 核心 模块 技术 和 算法 离 不 开 它 的 
支持 

(4) 人 工 智能 等 的 理论 与 技术 性 成 果 为 数据 挖掘 技术 的 提出 和 发 展 起 到 了 极 大 地 推动 
作用 。 

局 限 的 回答 要 点 : 

(1) 数据 挖掘 不 能 等 同 于 这 些 技术 的 又 加 ; 

(2) 数据 挖掘 有 不 同 的 处 理 问题 的 思想 。 

三 、 参 考 答案 

1. 频繁 项 目 集 生成 过 程 如 下 : 

Li 生成 : 生成 候选 集 并 通过 扫描 数据 库 得 到 它们 的 支持 数 ,Ci 二 {(A,4),(B,5),(C， 
4). (D,4).(E,2)}; 挑选 minsup_count >3 的 项 目 集 组 成 1- 频 繁 项 目 集 Li 二 {A,B,C,D)。 

Ls ÆW: H Li 生成 2- 候 选集 并 通过 扫描 数据 库 得 到 它们 的 支持 数 C: 二 {1(AB,4)， 
(AC,3),(AD,2),(BC,4),(BD,4),(CD,3)); 挑选 minsup_count >3 的 项 目 集 组 成 2- 频 
繁 项 目 集 L:={(AB,AC,AD,BC,BD,CD)}。 

Ls ÆR: H L 生成 3- 候 选集 并 通过 扫描 数据 库 得 到 它们 的 支持 数 C ={(CABC,3)， 
(ABD.3).(ACD.2).(BCD.3)}; 挑选 minsup_count 三 3 的 项 目 集 组 成 3- 频 繁 项 目 集 工 :一 
{ABC.ABD.BCD}. 

Li ÆR: H Ls 生成 4- 候 选集 ,为 空 。 

于 是 所 有 的 频繁 项 目 集 为 {A,B,C.,D,AB,AC,AD,BC,BD,CD,ABC,ABD,BCD)}。 
另外 很 容易 得 到 最 大 频繁 项 目 集 为 {ABC.ABD,BCD)。 


R= 
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2. Apriori 方法 存在 的 问题 及 对 策 , 参 考 教材 中 相关 内 容 。 

四 、 参 考 答案 

关于 ID3 算法 的 基本 思想 .主要 问题 和 改进 策略 ,参考 教材 中 相关 内 容 。 

五 、 参 考 答 案 

1. k-means 算法 执行 过 程 如 下 : 

第 一 次 近代: 选取 中 心 点 是 a 和 4, 分 别 找到 离 a 和 4d 最 近 的 对 象 ,并 产生 两 个 簇 
{a, bs cs gs h} id, es f}。 

He? AY Hb Pal EEE 19 BO 9 

对 于 {a, b,c, gh) ,平均 值 为 (13/5, 6/5); 

XF id, e, 了} ,平均 值 为 (4/3, 10/3)。 

第 二 次 迭代 : 通过 平均 值 调整 对 象 的 所 在 的 簇 ,重新 聚 类 ,即将 所 有 点 按 离 平 均值 
(13/5, 6/5) 和 (4/3,10/3) 最 近 的 原则 重新 分 配 。 得 到 2 个 新 的 簇 ; b. cs gy h} Filla, d, 
e， 丰 。 重 新 计算 复 平 均值 点 ,得 到 新 的 平均 值 点 为 (9/2, 7/2) 和 (3, 5/4). 

第 三 次 迭代 : 将 所 有 点 按 离 平均 值 (9/2,7/2) 或 者 (3, 5/4) 最 近 的 原则 重新 分 配 。 仍 
然 为 {6,c，g, 几 和 {a, d, e, f) ,发 现 准 则 函数 收敛 ,程序 结束 。 

2. 改进 k-means 算法 ,参考 教材 中 相关 内 容 。 

六 、 参 考 答 案 

这 是 一 个 综合 考查 题 ,教师 应 该 根据 学 生 选 择 的 分 支 ,参考 教材 中 对 应 部 分 和 相关 的 研 
究 文 献 来 评测 。 
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